英伟达GDPO多奖励强化学习算法在多项任务上超越GRPO

正如上期文章介绍的《》：GRPO的奖励信号坍缩（Reward Collapse）当GRPO应用于多奖励场景时，会导致：如下图左边例子，例如两个二元奖励（0/1）的场景中，GRPO会将（0,1）、（0,2）、（1,2）等不同奖励组合，统一映射为（-0.7071, 0.7071）的优势值，无法区分“满足1个奖励”和“满足2个奖励”的差异。：降低训练信号的分辨率，导致策略更新不准确、收敛次优，甚至早期训

余俊晖

1402人浏览 · 2026-01-10 16:25:56

余俊晖 · 2026-01-10 16:25:56 发布

GRPO的RL方法存在缺陷：

GRPO将多个奖励求和后，通过组内相对优势估计进行策略更新。
GRPO原本为单奖励优化设计，直接迁移到多奖励场景时未被验证合理性。

正如上期文章介绍的《强化学习中的熵坍缩》：

如下图左，在RL的训练初期（无熵干预的RL训练），模型的熵会急剧下降。随着熵的下降，准确率会迎来一个快速增长期。但是，随着熵的迅速耗尽会导致模型过度自信，探索能力随之减弱。

GRPO的奖励信号坍缩（Reward Collapse）当GRPO应用于多奖励场景时，会导致不同奖励组合映射为相同优势值，丢失关键信息，表现如下：

信息丢失：如下图左边例子，例如两个二元奖励（0/1）的场景中，GRPO会将（0,1）、（0,2）、（1,2）等不同奖励组合，统一映射为（-0.7071, 0.7071）的优势值，无法区分“满足1个奖励”和“满足2个奖励”的差异。
训练缺陷：降低训练信号的分辨率，导致策略更新不准确、收敛次优，甚至早期训练失败（如GRPO在数学推理任务中400步后正确性奖励下降）。

关于GRPO：《DeepSeek采用的GRPO算法数学原理及算法过程浅析》

GDPO

其核心思想是解耦每个奖励的归一化过程：避免先求和再归一化导致的信息坍缩，通过“单独归一化→求和→批次稳定”的流程，保留不同奖励组合的相对差异。

如图图，假设任务有 $ n $ 个奖励目标，每个问题生成 $ G $ 个rollout，GDPO的优势计算分3步：

步骤1-解耦：单奖励组内归一化

对每个奖励 $ r_k $（$ k=1…n $）单独进行组内归一化，消除不同奖励的量纲差异，同时保留组内相对优劣：
$A_n^{(i,j)} = \frac{r_n^{(i,j)} - \text{mean}\{r_n^{(i,1)}, ..., r_n^{(i,G)}\}}{\text{std}\{r_n^{(i,1)}, ..., r_n^{(i,G)}\}}$

$ (i,j) $：第 $ i $ 个问题的第 $ j $ 个rollout；
作用：每个奖励的“好坏”独立评估，避免某一奖励主导求和结果。

步骤2：多奖励优势求和

将所有归一化后的单奖励优势相加，得到总优势：
$A_{\text{sum}}^{(i,j)} = A_1^{(i,j)} + \cdots + A_n^{(i,j)}$

作用：融合多个目标的优化信号，且每个目标的贡献已通过步骤1归一化。

步骤3-保障稳定性：批次级优势归一化

对批次内所有rollout的总优势进行归一化，确保数值范围稳定，不随奖励数量增加而膨胀：

$ \epsilon $：避免分母为0的微小值；

GDPO 在有无批量优势规范化情况下的训练稳定性

上述实验证明去掉这一步会导致偶尔收敛失败。

GRPO vs GDPO代码上的差异

https://github.com/NVlabs/GDPO/blob/main/trl-GDPO/trl-0.18.0-gdpo/trl/trainer/grpo_trainer.py

GRPO

GDPO

从上述代码可以看出，其差异较小，两者的本质区别在于多奖励的处理顺序：

GRPO：先将多奖励加权合并为单一总奖励，再对总奖励进行组内一次归一化。
GDPO：先对每个奖励独立进行组内归一化（解耦核心），再加权求和，最后进行批次级二次归一化（稳定性保障）。

GDPO奖励优先级优化（扩展设计）

这个挺实用的，针对“不同奖励难度差异大”的场景（如长度约束易优化，准确性难优化），提出两种优先级调整策略：

策略1：奖励权重调整：为高优先级奖励分配更大权重 $ w_k $，但需注意：难度差异过大时，需极大权重才能抵消难度偏差，效果有限。
策略2：条件奖励设计：让易优化奖励依赖于难优化奖励（如长度奖励仅在准确性达标时生效，强制模型优先满足高优先级（难）目标。）：

实验

结论：与 GRPO 相比，GDPO 在多奖励强化学习中是一种更稳定、更准确且偏好对齐的最优化方法。

工具调用任务

参考文献

https://github.com/NVlabs/GDPO/tree/main
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization，https://arxiv.org/pdf/2601.05242

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git