spring-ai-alibaba 1.0.0.2 学习（四）——语句切分器、文档检索拦截器

lxsy

1156人浏览 · 2025-06-30 14:27:04

lxsy · 2025-06-30 14:27:04 发布

spring-ai-alibaba对spring-ai的很多模块进行了扩展增强，今天我们来看一下其中的语句切分器SentenceSplitter和文档检索拦截器DocumentRetrievalAdvisor

TextSplitter对比

TokenTextSplitter

spring-ai的文本切分工具目前还比较少，只有一个TokenTextSplitter

TokenTextSplitter的主要逻辑是先按最大token切分，然后再往前找最近的分隔符（英文的句号、问号、叹号、换行符）

由于TokenTextSplitter的分隔符是英文，且为硬编码无法自定义，所以该文本切分器并不适合用来处理中文

SentenceSplitter

spring-ai-alibaba提供的SentenceSplitter是基于opennlp的SentenceDetectorME实现的，其主要作用是将文本分割为句子。

SentenceDetectorME通过预先训练好的模型（spring-ai-alibaba-core包中opennlp目录下的bin文件），准确的识别出语句。

SentenceSplitter之后会将识别出的语句按最大token数进行聚合处理。

目前还没有对SentenceSplitter进行详细的测试，但是理论上对于中文，效果应该会比TokenTextSplitter好。

RecursiveCharacterTextSplitter

个人感觉SentenceSplitter效果可能会略差于python的递归字符分割器，递归字符分割器对段落的聚合可能会更好一些。

SentenceSplitter使用

使用比较简单，创建后调用split方法即可

        List<Document> documentList = ...;
        SentenceSplitter splitter = new SentenceSplitter(100);
        List<Document> newDocuments = splitter.split(documentList);

DocumentRetrievalAdvisor

DocumentRetrievalAdvisor内部实现与spring-ai的QuestionAnswerAdvisor几乎一样，唯一区别在于QuestionAnswerAdvisor需要注入一个VectorStore，而DocumentRetrievalAdvisor需要注入一个DocumentRetriever

而两者的区别也很简单，DocumentRetriever是对VectorStore的检索功能的一个上层封装，相对于VectorStore一般是由第三方向量数据库提供，DocumentRetriever可以自行实现，更加灵活

如果想在检索前后添加一些自定义操作，DocumentRetrievalAdvisor更加方便一些

使用方法如下：

    public SpringAiAlibabaExample04TextSplitterAndDocumentRetriever(ChatClient.Builder builder, VectorStore vectorStore) {
        chatClient = builder.defaultAdvisors(
                new DocumentRetrievalAdvisor(
                        VectorStoreDocumentRetriever.builder()
                                .vectorStore(vectorStore)
                                .build()
                )
        ).build();
    }

    @GetMapping("/retriever")
    public String retriever(String input) {
        return chatClient.prompt()
                .user(input)
                .call()
                .content();
    }

这里我使用的是spring-ai的VectorStoreDocumentRetriever，可以根据自身需要实现一个DocumentRetriever

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git