从0到生产：一篇讲透RAG（检索增强生成）完整流程（含代码与工程实践）

你也喜欢编程，公瑾

651人浏览 · 2026-03-31 14:42:19

你也喜欢编程，公瑾 · 2026-03-31 14:42:19 发布

面向人群：AI应用开发工程师 / 后端工程师 / 想落地大模型的同学
技术栈：Python + FastAPI + 向量库 + LLM

一、什么是RAG

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将外部知识库与大语言模型（LLM）结合的技术。

核心思想：
让模型在回答前，先查资料，再回答

二、为什么需要RAG

LLM存在问题：

幻觉（胡编）
无法访问私有数据
知识过时

RAG解决：

引入实时知识
提高准确性
可控输出

三、RAG整体流程图

文档 → 预处理 → 切分 → 向量化 → 入库
↓
用户问题 → 改写 → 向量化 → 检索 → Rerank
↓
Prompt构造
↓
LLM生成
↓
后处理

四、完整流程详解（生产级）

1. 文档预处理

去HTML标签
去噪声字符
标准化格式

2. 文本切分（Chunking）

关键策略：

按语义切分
overlap重叠
标题增强

3. 向量化（Embedding）

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")
embedding = model.encode("血红蛋白 135g/L")

4. 向量存储（Vector Store）

常见方案：

FAISS
Milvus
Elasticsearch

5. Query改写（Rewrite）

示例：
原始：有没有问题
改写：该患者是否存在血液指标异常

6. 多路检索（Retrieval）

向量检索
BM25关键词检索
Hybrid混合检索

7. 重排序（Rerank）

使用cross-encoder提升精度

8. Prompt构造

示例：
已知信息：
{context}

问题：
{question}

要求：
仅基于已知信息回答

9. LLM生成

控制参数：

temperature
max_tokens

10. 后处理（Post-processing）

JSON结构化
字段提取
校验

11. 缓存与性能优化

embedding缓存
query缓存
结果缓存

12. 评估与反馈

Recall
Precision
人工评估

五、完整流程总结

文档处理 → chunk → embedding → 入库
↓
Query → rewrite → embedding
↓
retrieval → rerank
↓
prompt → LLM
↓
post-process → cache → eval

六、代码示例（简化版）

def rag_pipeline(query):
    q_emb = embed(query)
    docs = vector_db.search(q_emb, top_k=10)
    top_docs = rerank(query, docs)[:3]
    context = "\n".join(top_docs)
    prompt = f"基于以下内容回答：{context}\n问题：{query}"
    answer = llm(prompt)
    return answer

七、进阶方向（高薪关键）

RAG + Agent
推理优化（batch / KV cache）
vLLM部署
高并发架构

八、总结

RAG本质：
检索 + 理解 + 生成 + 优化

一句话总结：
让模型“先查资料再说话”

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git