第六章.干货干货！！！Langchain4j开发智能体-如何实现流式输出

前面的章节中我们并没有使用流式输出，不使用流式输出的问题在于内容是一次把内容全部输出，这个过程可能伴随着等待，当大模型响应的数据较多的时候，那么用户需要等待很久才能看到输出结果，所以本篇文章我们使用Langchain4j的流式输出功能。文件结束，本文介绍了如何通过langchin4j提供的reactor依赖让大模型支持流式输出，在企业级开发中流式输出肯定是必备的。如果文章对你有帮助请给个好评吧！！

墨家巨子@俏如来

926人浏览 · 2025-04-25 10:21:04

墨家巨子@俏如来 · 2025-04-25 10:21:04 发布

前言

前面的章节中我们并没有使用流式输出，不使用流式输出的问题在于内容是一次把内容全部输出，这个过程可能伴随着等待，当大模型响应的数据较多的时候，那么用户需要等待很久才能看到输出结果，所以本篇文章我们使用Langchain4j的流式输出功能。

功能实现

首先我们需要导入 langchain4j-reactor 依赖，他提供了流式输出的支持

<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j-reactor</artifactId>
    <version>${langchain.version}</version>
</dependency>

如果要使用流式输出那么必须使用支持stream流的模型才可以，所以我们增加 streaming-chat-model 配置如下

langchain4j:
  ollama:
    chat-model:
      base-url: http://localhost:11434
      model-name: qwen2:7b
    streaming-chat-model: #支持流式输出的模型
      base-url: http://localhost:11434
      model-name: qwen2:7b

接着我们在定义大模型的时候需要明确的指定模型的类型为stream 模型，由于我们上面配置中使用的是千问的stream模型，所以这里采用 QwenStreamingChatModel 定义如下


/**
 * ollama大模型 - ai -service
 * 记忆功能
 */
@Bean
public OllamaAssistant ollamaAssistant(QwenStreamingChatModel streamingChatModel, WebSearchEngine webSearchEngine){

    //对话记忆功能实现
    MessageWindowChatMemory chatMemory = MessageWindowChatMemory.builder().chatMemoryStore(new PersistentChatMemoryStore()).maxMessages(10).build();

    //RAG检索
    return AiServices.builder(OllamaAssistant.class)
            //流式对话【重点】
            .streamingChatLanguageModel(streamingChatModel)
            //记忆功能
            .chatMemoryProvider((memoryId -> chatMemory))
            //调用自定义工具 ， web搜索工具
            .tools(new WeatherTool(),new WebSearchTool(webSearchEngine))
            .build();
}

接着就是大模型的对话方法返回值需要使用 Flux 来接受结果了，学习过webflux的同学肯定知道它是什么东西。Flux 是响应式编程中的一种数据流，它可以异步地发出多个元素，并且支持各种操作符来处理这些元素，比如过滤、映射、合并等。

public interface OllamaAssistant {

    /**
     * 流式输出 - 记忆能力 - search 工具调用
     * @param message ：消息
     * @param memoryId ：消息记忆用作隔离的ID
     */
    @SystemMessage("你是一名AI购物助手，根据用户的提问帮助用户搜索相关的商品信息")
    Flux<String> search(@UserMessage String message, @MemoryId String memoryId);

最后是controller部分，也采用 Flux 来响应结果，如下

    private void setEncoder(){
        ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder.getRequestAttributes();
        HttpServletResponse response = requestAttributes.getResponse();
        response.setContentType("text/event-stream;charset=utf-8");
        response.setCharacterEncoding("UTF-8");
    }
    /**
     * 记忆功能 - tool调用 - websearch
     */
    @RequestMapping(value="/chat/ollama/search", produces = TEXT_EVENT_STREAM_VALUE)
    public Flux<String> chatOllamSearch(@RequestParam("message") String message, @RequestParam("memoryId")String memoryId) {
        setEncoder();
        return ollamaAssistant.search(message, memoryId);
    }

流式输出已经接入完成，接下来就是测试了，我们可以看到大模型给出的结果就是流式的，而不是全部一起输出内容，用户也不用进行长时间等待了。当然这里我没有去处理前段，在实际项目中还需要前端配合做成流式效果。

在这里插入图片描述

总结

文件结束，本文介绍了如何通过langchin4j提供的reactor依赖让大模型支持流式输出，在企业级开发中流式输出肯定是必备的。如果文章对你有帮助请给个好评吧！！！

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git