揭秘 DeepSeek强化学习！双奖励模型 + GRPO 技术，如何让模型性能飙升？

在深度学习领域，强化学习作为提升模型性能和适应性的关键技术手段，对于DeepSeek-V3模型的优化起着至关重要的作用。为了使模型能够在复杂多变的任务中展现出卓越的表现，在强化学习过程中精心设计并采用了一系列有效的策略和方法。其中，奖励模型的构建以及组相对策略优化技术的应用，是提升模型学习效果和性能的重要组成部分。下面将详细介绍DeepSeek-V3在强化学习中所采用的奖励模型和组相对策略优化的具

陈敬雷-充电了么-CEO兼CTO

1011人浏览 · 2025-09-21 21:56:26

陈敬雷-充电了么-CEO兼CTO · 2025-09-21 21:56:26 发布

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列一百九十
- 揭秘 DeepSeek强化学习！双奖励模型 + GRPO 技术，如何让模型性能飙升？
- - 更多技术内容
总结

GPT多模态大模型与AI Agent智能体系列一百九十

揭秘 DeepSeek强化学习！双奖励模型 + GRPO 技术，如何让模型性能飙升？

3.5.2 DeepSeek强化学习
在深度学习领域，强化学习作为提升模型性能和适应性的关键技术手段，对于DeepSeek-V3模型的优化起着至关重要的作用。为了使模型能够在复杂多变的任务中展现出卓越的表现，在强化学习过程中精心设计并采用了一系列有效的策略和方法。其中，奖励模型的构建以及组相对策略优化技术的应用，是提升模型学习效果和性能的重要组成部分。下面将详细介绍DeepSeek-V3在强化学习中所采用的奖励模型和组相对策略优化的具体内容。
1.奖励模型
在强化学习的过程中，采用了两种不同类型的奖励模型（Reward Model，RM），即基于规则的奖励模型和基于模型的奖励模型，以此来引导模型的学习方向，提升模型的性能。
1）基于规则的RM
对于那些能够运用特定规则进行验证的问题，采用基于规则的奖励系统来给予模型反馈。例如在数学问题中，许多问题都有确切的结果。为了便于规则验证，要求模型以特定格式（如框内）给出最终答案。这样一来，就可以依据既定规则判断答案的正确性。又比如在处理LeetCode问题时，能够借助编译器依据测试用例生成反馈。只要条件允许，就优先使用基于规则的验证方式，因为这种方式可靠性更高，不容易被人为操纵或利用，能够为模型提供更加稳定和准确的反馈，有助于模型学习到正确的知识和模式。
2）基于模型的RM
对于那些具有自由格式标准答案的问题，依靠奖励模型来判断模型给出的回答是否符合预期的标准答案。而对于像创意写作这类没有明确标准答案的问题，奖励模型则根据问题以及相应的答案作为输入，从而给出反馈。这个奖励模型是基于DeepSeek-V3的SFT检查点进行训练的。为了进一步增强奖励模型的可靠性，专门构建了偏好数据。这些偏好数据不仅提供最终的奖励信息，还包含得出奖励所依据的思维链。通过这种方式，能够有效降低在特定任务中奖励作弊的风险，使奖励模型给出的反馈更加真实、合理，从而更好地引导模型学习。
2.组相对策略优化
与DeepSeek-V2的做法类似，DeepSeek-V3在强化学习中采用了组相对策略优化（Group Relative Policy Optimization，GRPO）技术。GRPO摒弃了传统与策略模型大小相同的评论家模型，而是从组分数中估计基线。具体运作方式如下：对于每个问题，GRPO从旧策略模型中采样一组输出。然后，通过最大化特定目标来优化策略模型。在强化学习过程中，将来自编码、数学、写作、角色扮演和问答等不同领域的提示纳入其中。这种做法有诸多好处，一方面能使模型生成的结果更贴合人类偏好，让模型在与人类交互时表现得更加自然和符合预期；另一方面，在基准测试中，尤其是在可用监督微调数据有限的场景下，能够显著提升模型的性能。通过多领域提示的训练，模型能够学习到更广泛的知识和模式，增强对不同类型任务的适应性和处理能力，从而在各种实际应用场景中展现出更好的表现。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git