英伟达：多奖励归一化强化学习GDPO

如何在多奖励强化学习中避免奖励信号崩溃，从而提高训练的精确性和稳定性？论文提出了一种名为GDPO的训练方法，通过分开归一化每个奖励，增强了多奖励优化的精度和训练收敛性。

大模型任我行

746人浏览 · 2026-01-11 10:00:00

大模型任我行 · 2026-01-11 10:00:00 发布

在这里插入图片描述

📖标题：GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
🌐来源：arXiv, 2601.05242v1

🌟摘要

随着语言模型变得越来越有能力，用户期望它们不仅提供准确的响应，而且还提供与各种人类偏好一致的行为。为了实现这一点，强化学习 (RL) 管道已经开始合并多个奖励，每个奖励都捕获不同的偏好，以指导模型走向这些所需的行为。然而，最近的工作默认在多奖励设置下应用组相对策略优化 (GRPO)，而不检查其适用性。在本文中，我们证明了直接应用GRPO来归一化不同的推出奖励组合会导致它们崩溃成相同的优势值，降低训练信号的分辨率，导致收敛次优，在某些情况下，早期训练失败。然后，我们介绍了组奖励解耦归一化策略优化 (GDPO)，这是一种新的策略优化方法，通过将单个奖励的归一化解耦来解决这些问题，更忠实地保留它们的相对差异并实现更准确的多奖励优化，以及显着提高训练稳定性。我们将 GDPO 与 GRPO 在三个任务中进行比较：工具调用、数学推理和编码推理，评估正确性指标（准确性、错误比率）和约束依从性指标（格式、长度）。在所有设置中，GDPO 始终优于 GRPO，证明了它对多奖励强化学习优化的有效性和可泛化性。

🛎️文章简介

🔸研究问题：如何在多奖励强化学习中避免奖励信号崩溃，从而提高训练的精确性和稳定性？
🔸主要贡献：论文提出了一种名为GDPO的训练方法，通过分开归一化每个奖励，增强了多奖励优化的精度和训练收敛性。

📝重点思路

🔸提出了Group reward-Decoupled Normalization Policy Optimization (GDPO)，该方法通过对每个奖励进行独立的组差归一化，来保留不同奖励组合之间的区分。
🔸使用批量优势归一化，以确保增加个别奖励时，优势的大小不会随之增大，这样更好地维护了数值范围的稳定性。
🔸在三项任务（工具调用、数学推理和代码推理）上进行广泛实验，全面评估GDPO对多种性能指标的优化能力。

🔎分析总结

🔸GDPO相比GRPO显著提高了多奖励结合下的训练收敛性和下游性能，使模型在多个目标上表现出更强的一致性和准确性。
🔸实验结果显示，GDPO能够有效避免训练崩溃现象，特别是在数学推理任务中，其正确性奖励分数在整个训练过程中持续提高。
🔸GDPO在提高准确性和控制输出长度方面表现优于GRPO，在所有测试中明显减少了长度超出比率，并提高了准确率。

💡个人观点

GDPO的核心是不同奖励分别计算优势函数，再汇总单样本的优势得到整体排序，主要目的还是把分维度的奖励汇总的更合理一点。

🧩附录

在这里插入图片描述

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git