基于策略梯度的高效强化学习算法-GRPO

GRPO推导揭示了其如何巧妙地将分组统计与相对比较的思想融入策略梯度框架。GRPO通过简洁公式实现了基线削减方差和标准化稳定更新的双重目的。从而整体形成了一种高效、简洁且稳定的策略优化算法。

liliangcsdn

917人浏览 · 2026-01-17 22:18:01

liliangcsdn · 2026-01-17 22:18:01 发布

GRPO(Group Relative Policy Optimization)是一种基于策略梯度的高效强化学习算法。

GRPO通过分组相对回报估计来提升样本效率和策略更新的稳定性。具体为在同一批经验中，通过分组并计算组内相对表现来估计优势函数，替代传统PPO对绝对价值或优势的估计。

这里尝试通过分布推导，重现这一过程。所用示例参考和修改自网络资料。

1 强化学习

1.1 强化学习目标

强化学习的目标是找到一个参数化的策略 $\pi_\theta(a|s)$ ，以最大化期望累积奖励（回报）：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau)] = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \gamma^t r(s_t, a_t) \right]$

其中 $\tau = (s_0, a_0, s_1, a_1, ..., s_T)$ 是一条轨迹， $\gamma$ 是折扣因子。

1.2 策略梯度定理

根据策略梯度定理，目标函数关于参数 $\theta$ 的梯度为：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A^{\pi_\theta}(s_t, a_t) \right]$

其中 $A^{\pi_\theta}(s_t, a_t)$ 是优势函数，定义为动作价值函数 $Q^\pi(s_t, a_t)$ 与状态价值函数 $V^\pi(s_t)$ 的差：

$A^\pi(s_t, a_t) = Q^\pi(s_t, a_t) - V^\pi(s_t)$

优势函数衡量了在状态 $s_t$ 下执行动作 $a_t$ 相对于平均水平的好坏程度。

其核心难点在于，优势函数 $A^\pi(s, a)$ 是未知的，需要准确估计。

优势含漱估计不准确，会导致梯度方差大、更新不稳定。

1.3 广义优势估计GAE

传统强化学习方法PPO通常使用广义优势估计GAE来估计 $A_t$ ：

$\hat{A}_t^{\text{GAE}} = \sum_{l=0}^{T-t} (\gamma \lambda)^l \delta_{t+l}$

其中 $\delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)$ ， $V_\phi$ 是一个学习到的价值网络。

GAE的缺点是赖一个独立训练的价值网络 $V_\phi$ ，其估计误差会直接传递到优势估计中，且需要额外的网络和稳定训练技巧。

2 GRPO

GRPO是分组相对回报估计，这里通过在多个步骤中分布推导，梳理和总结GRPO的估计过程。

2.1 GRPO估计推导

GRPO旨在避免显式学习价值网络，直接从一组经验样本中隐式地、相对地估计优势。

步骤 1：经验收集与分组

1. 用当前策略 $\pi_{\theta_{old}}$ 与环境交互，收集 $N$ 条轨迹的经验，构成一个批次（Batch）。

2. 将这个批次的经验随机分成 $K$ 组(Groups)，每组包含 $M$ 条轨迹，具体为：

$N = K \times M$

步骤 2：组内回报计算

对于组 $g$ 中的每一条轨迹 $i$ ，计算其折扣累积回报 $R^{(g,i)}$ ：

$R^{(g,i)} = \sum_{t=0}^{T^{(g,i)}} \gamma^t r_t^{(g,i)}$

步骤 3：组内相对优势计算

这是GRPO最关键的步骤，假设在同一组内，由于环境和策略在短时间内的稳定性，不同轨迹的回报差异主要源于动作选择的不同，而非状态分布的差异。

对于组 $g$ 内的某个状态-动作对 $(s_t^{(g,i)}, a_t^{(g,i)})$ ，GRPO 定义其相对优势 $\hat{A}_{rel}^{(g,i)}(t)$ 为：

$\hat{A}_{rel}^{(g,i)}(t) = \frac{R^{(g,i)} - \mu^{(g)}}{\sigma^{(g)} + \epsilon}$

其中：

$\mu^{(g)} = \frac{1}{M} \sum_{j=1}^{M} R^{(g,j)}$ 是组 $g$ 内所有轨迹回报的均值。
$\sigma^{(g)} = \sqrt{ \frac{1}{M} \sum_{j=1}^{M} (R^{(g,j)} - \mu^{(g)})^2 }$ 是组 $g$ 内所有轨迹回报的标准差。

$\epsilon$ 是一个小的常数，防止除零。

直观理解如下所示。

1）去均值

$R^{(g,i)} - \mu^{(g)}$

这等同于用组内平均表现 $\mu^{(g)}$ 作为基线。

根据策略梯度定理，基线可以减少梯度方差而不引入偏差。

这里， $\mu^{(g)}$ 自然成为了该组样本的状态价值函数 $V(s)$ 的近似（对组内所有状态取平均）。

2）标准化（Normalization）

具体为除以 $\sigma^{(g)}$ ，这一步将不同组的优势值缩放到相似的尺度。

这极大地稳定了策略更新的步长，使更新对回报的绝对尺度不敏感。

3）相对性（Relativity）

最终估计的优势，不再是动作的绝对好，而是相对于同组内其他轨迹的表现好多少。

一条轨迹比同组平均好一个标准差，其优势就是 +1。

步骤 4：策略优化目标函数

有了优势估计，GRPO 构建类似于PPO的裁剪目标函数，以进行稳定、高效的小批量更新。

1）重要性采样比：

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$

2）GRPO目标函数：

$L^{GRPO}(\theta) = \mathbb{E}_{(s_t, a_t) \sim \pi_{\theta_{old}}} \left[ \min \left( r_t(\theta) \hat{A}_{rel}, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_{rel} \right) \right]$

其中 $\hat{A}_{rel}$ 是该状态-动作对所对应的分组相对优势估计。

min操作在原始比率目标与裁剪目标之间取最小值，防止因比率过大导致破坏性大更新。

$\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)$ 将重要性采样比限制在 $[1-\epsilon, 1+\epsilon]$ 范围内，限制策略单次更新幅度。

2.2 GRPO推导总结

GRPO推导揭示了其如何巧妙地将分组统计与相对比较的思想融入策略梯度框架。

GRPO通过简洁公式 $\hat{A}_{rel} = (R - \mu)/\sigma$ 实现了基线削减方差和标准化稳定更新的双重目的。

从而整体形成了一种高效、简洁且稳定的策略优化算法。

2.3 GRPO流程

GRPO算法流程如下所示

1. 初始化：策略网络参数 $\theta$ 。
2. 循环（直到收敛）：
a. 采样：使用策略 $\pi_{\theta_{old}}$ 收集 $N$ 条轨迹的经验数据。
b. 计算回报：为每条轨迹计算折扣回报 $R^{(i)}$ 。
c. 分组与优化（多轮Epoch）：
for epoch in 1...E:
将数据随机分成 $K$ 个组。
对每个组，计算组内回报均值 $\mu^{(g)}$ 和标准差 $\sigma^{(g)}$ 。
对组内每个样本，计算相对优势 $\hat{A}_{rel}$ 。
使用目标函数 $L^{GRPO}(\theta)$ ，通过随机梯度上升如Adam更新策略参数 $\theta$ 。
d. $\theta_{old} \leftarrow \theta$

GRPO优势主要总结为如下几方面：

没有价值网络，避免了价值网络训练不稳定和偏差传递的问题。

采用隐式基线，组内均值 $\mu^{(g)}$ 作为自适应基线，有效降低梯度方差。

组内标准差 $\sigma^{(g)}$ 提供了自动自适应梯度缩放，学习率对回报尺度不敏感，提升了训练稳定性。

通过对单批样本的重分组，可以进行多次策略更新（类似于PPO的多个Epoch），充分利用数据

分组估计虽然引入了偏差，但降低了方差，在批次足够大分组合理情况下，这是一个有利的权衡。

3 PPO vs GRPO

这里从多个角度对比PPO和GRPO。

1）优势估计

PPO依赖于独立的价值网络 $V_\phi$ 和 GAE。

GRPO依赖于同一批次内样本的分组统计量（均值、标准差）。

2）所需网络

PPO需要策略网络 + 价值网络，而GRPO近需要策略网络。

3）稳定性来源

PPO的稳定训练，来源于裁剪 + GAE的平滑估计 + 价值网络正则化。

GRPO的稳定训练，来源于裁剪 + 分组相对标准化（隐式基线与自动缩放）。

4）超参数

PPO训练需要关注学习率，GAE系数 $\lambda$ ，裁剪范围 $\epsilon$ ，价值网络相关超参数。

GRPO仅需要关注学习率，分组数量 $K$ ，裁剪范围 $\epsilon$ 。

reference

---

simple_GRPO

https://github.com/lsdefine/simple_GRPO

simple_GRPO是如何复现DeepSeek的GRPO算法的？

https://www.zhihu.com/question/12750157686

基于人类反馈的强化学习框架RLHF尝试学习

https://blog.csdn.net/liliang199/article/details/156951282

Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach

https://simg.baai.ac.cn/paperfile/460ed0ba-b0f1-4223-a42e-4a23a7b12154.pdf

深度解析：DeepSeek R1-Zero训练范式与GRPO极简优化策略

https://cloud.baidu.com/article/3613515

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git