在这里插入图片描述

📖标题:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
🌐来源:arXiv, 2601.05242v1

🌟摘要

随着语言模型变得越来越有能力,用户期望它们不仅提供准确的响应,而且还提供与各种人类偏好一致的行为。为了实现这一点,强化学习 (RL) 管道已经开始合并多个奖励,每个奖励都捕获不同的偏好,以指导模型走向这些所需的行为。然而,最近的工作默认在多奖励设置下应用组相对策略优化 (GRPO),而不检查其适用性。在本文中,我们证明了直接应用GRPO来归一化不同的推出奖励组合会导致它们崩溃成相同的优势值,降低训练信号的分辨率,导致收敛次优,在某些情况下,早期训练失败。然后,我们介绍了组奖励解耦归一化策略优化 (GDPO),这是一种新的策略优化方法,通过将单个奖励的归一化解耦来解决这些问题,更忠实地保留它们的相对差异并实现更准确的多奖励优化,以及显着提高训练稳定性。我们将 GDPO 与 GRPO 在三个任务中进行比较:工具调用、数学推理和编码推理,评估正确性指标(准确性、错误比率)和约束依从性指标(格式、长度)。在所有设置中,GDPO 始终优于 GRPO,证明了它对多奖励强化学习优化的有效性和可泛化性。

🛎️文章简介

🔸研究问题:如何在多奖励强化学习中避免奖励信号崩溃,从而提高训练的精确性和稳定性?
🔸主要贡献:论文提出了一种名为GDPO的训练方法,通过分开归一化每个奖励,增强了多奖励优化的精度和训练收敛性。

📝重点思路

🔸提出了Group reward-Decoupled Normalization Policy Optimization (GDPO),该方法通过对每个奖励进行独立的组差归一化,来保留不同奖励组合之间的区分。
🔸使用批量优势归一化,以确保增加个别奖励时,优势的大小不会随之增大,这样更好地维护了数值范围的稳定性。
🔸在三项任务(工具调用、数学推理和代码推理)上进行广泛实验,全面评估GDPO对多种性能指标的优化能力。

🔎分析总结

🔸GDPO相比GRPO显著提高了多奖励结合下的训练收敛性和下游性能,使模型在多个目标上表现出更强的一致性和准确性。
🔸实验结果显示,GDPO能够有效避免训练崩溃现象,特别是在数学推理任务中,其正确性奖励分数在整个训练过程中持续提高。
🔸GDPO在提高准确性和控制输出长度方面表现优于GRPO,在所有测试中明显减少了长度超出比率,并提高了准确率。

💡个人观点

GDPO的核心是不同奖励分别计算优势函数,再汇总单样本的优势得到整体排序,主要目的还是把分维度的奖励汇总的更合理一点。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐