注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列一百九十

揭秘 DeepSeek强化学习!双奖励模型 + GRPO 技术,如何让模型性能飙升?

3.5.2 DeepSeek强化学习
在深度学习领域,强化学习作为提升模型性能和适应性的关键技术手段,对于DeepSeek-V3模型的优化起着至关重要的作用。为了使模型能够在复杂多变的任务中展现出卓越的表现,在强化学习过程中精心设计并采用了一系列有效的策略和方法。其中,奖励模型的构建以及组相对策略优化技术的应用,是提升模型学习效果和性能的重要组成部分。下面将详细介绍DeepSeek-V3在强化学习中所采用的奖励模型和组相对策略优化的具体内容。
1.奖励模型
在强化学习的过程中,采用了两种不同类型的奖励模型(Reward Model,RM),即基于规则的奖励模型和基于模型的奖励模型,以此来引导模型的学习方向,提升模型的性能。
1)基于规则的RM
对于那些能够运用特定规则进行验证的问题,采用基于规则的奖励系统来给予模型反馈。例如在数学问题中,许多问题都有确切的结果。为了便于规则验证,要求模型以特定格式(如框内)给出最终答案。这样一来,就可以依据既定规则判断答案的正确性。又比如在处理LeetCode问题时,能够借助编译器依据测试用例生成反馈。只要条件允许,就优先使用基于规则的验证方式,因为这种方式可靠性更高,不容易被人为操纵或利用,能够为模型提供更加稳定和准确的反馈,有助于模型学习到正确的知识和模式。
2)基于模型的RM
对于那些具有自由格式标准答案的问题,依靠奖励模型来判断模型给出的回答是否符合预期的标准答案。而对于像创意写作这类没有明确标准答案的问题,奖励模型则根据问题以及相应的答案作为输入,从而给出反馈。这个奖励模型是基于DeepSeek-V3的SFT检查点进行训练的。为了进一步增强奖励模型的可靠性,专门构建了偏好数据。这些偏好数据不仅提供最终的奖励信息,还包含得出奖励所依据的思维链。通过这种方式,能够有效降低在特定任务中奖励作弊的风险,使奖励模型给出的反馈更加真实、合理,从而更好地引导模型学习。
2.组相对策略优化
与DeepSeek-V2的做法类似,DeepSeek-V3在强化学习中采用了组相对策略优化(Group Relative Policy Optimization,GRPO)技术。GRPO摒弃了传统与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体运作方式如下:对于每个问题,GRPO从旧策略模型中采样一组输出。然后,通过最大化特定目标来优化策略模型。在强化学习过程中,将来自编码、数学、写作、角色扮演和问答等不同领域的提示纳入其中。这种做法有诸多好处,一方面能使模型生成的结果更贴合人类偏好,让模型在与人类交互时表现得更加自然和符合预期;另一方面,在基准测试中,尤其是在可用监督微调数据有限的场景下,能够显著提升模型的性能。通过多领域提示的训练,模型能够学习到更广泛的知识和模式,增强对不同类型任务的适应性和处理能力,从而在各种实际应用场景中展现出更好的表现。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐