＜span class=“js_title_inner“＞RAG 检索模型如何学习：三种损失函数的机制解析＜/span＞

公式中 p* 是正样本嵌入，P' 是负样本嵌入列表，q 是查询嵌入，s(.) 表示相似度函数，比如余弦相似度。本文将介绍我实验过的三种方法：Pairwise cosine embedding loss（成对余弦嵌入损失）、Triplet margin loss（三元组边距损失）、InfoNCE loss。数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新

数据派THU

31人浏览 · 2026-01-27 17:02:19

数据派THU · 2026-01-27 17:02:19 发布

来源：DeepHub IMBA
本文约1000字，建议阅读5分钟
哪种方法最好？要看具体场景、数据量和算力。

Agent 系统发展得这么快那么检索模型还重要吗？RAG 本身都已经衍生出 Agentic RAG和 Self-RAG 这些更复杂的变体了。

答案是肯定的，无论 Agent 方法在效率和推理上做了多少改进，底层还是离不开检索。检索模型越准，需要的迭代调用就越少，时间和成本都能省下来，所以训练好的检索模型依然关键。讨论 RAG 怎么用的文章铺天盖地，但真正比较检索模型学习方式的内容却不多见。

检索系统包含多个组件：检索嵌入模型、索引算法（HNSW 之类）、向量搜索机制（余弦相似度等）以及重排序模型。这篇文章只聚焦检索嵌入模型的学习方式。

本文将介绍我实验过的三种方法：Pairwise cosine embedding loss（成对余弦嵌入损失）、Triplet margin loss（三元组边距损失）、InfoNCE loss。

成对余弦嵌入损失

正样本对示例

负样本对示例

输入是一对文本加一个标签，标签标明这对文本是正匹配还是负匹配。和 MNLI 数据集里的蕴含、矛盾关系类似。

损失函数用的是余弦嵌入损失，x 和 y 分别是文本对的嵌入向量。

三元组边距损失

输入变成三个文本：一个锚文本、一个正匹配、一个负匹配。

损失函数是 Triplet Margin Loss。公式里 a 代表锚文本嵌入，p 代表正样本嵌入，n 代表负样本嵌入。

InfoNCE 损失

输入包括一个查询、一个正匹配、一组负样本列表。

损失函数采用 InfoNCE，灵感来自 M3-Embedding 论文（arxiv:2402.03216）。公式中 p* 是正样本嵌入，P' 是负样本嵌入列表，q 是查询嵌入，s(.) 表示相似度函数，比如余弦相似度。

比较

哪种方法最好？要看具体场景、数据量和算力。从我的实验来看，InfoNCE 覆盖面最广。但只要实验做得够充分、训练数据比例调得够细，余弦嵌入损失也能达到差不多的效果。三元组边距损失我没有深入探索，不过它可能是介于另外两者之间的一个折中选项。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git