【强化学习】 REINFORCE 算法

自信的小螺丝钉

1086人浏览 · 2025-11-07 01:07:49

自信的小螺丝钉 · 2025-11-07 01:07:49 发布

REINFORCE 算法

策略梯度法中，一个主要问题是：使用了不相关的奖励信息。在PG计算梯度时，使用了总回报 $G(τ)G(\tau)$ 作为权重，它包含了整个轨迹的回报（也就是说，站在时刻 t 的视角去看，这个总回报既包含了时刻 t 之前的奖励，也包含了时刻t之后的奖励），实际上，在评估当前动作的时候，只需要关注从这一动作开始直到轨迹结束的“后续表现”（也叫 “rewards to go”），即当前以及未来的奖励，而不应该考虑过去的奖励 。

为了解决这个问题，REINFORCE 算法使用 $G_t$ 来代替 $G(τ)G(\tau)$ 作为权重。表示从当前时刻 t 到轨迹结束的总回报，也就是只要「现在」和「未来」，不要「过去」：

$Gt=∑k=tTγk−trkG_t= \sum_{k=t}^T \gamma^{k-t} r_k$ 表示从时刻 t 开始的累积折扣回报， $ r_k$ 表示在时刻 k 的奖励（初始化为 t ）， $γ\gamma$ 表示折扣率。（对比 $G(τ)=∑t=0TγtrtG(\tau)=\sum_{t=0}^T \gamma^t r_t$ 理解）

这样一来，使用 $G_t$ 作为权重可以更准确地估计策略梯度。REINFORCE 算法的梯度计算公式如下：

带基线（Baseline）的REINFORCE 算法

REINFORCE 算法通过用“rewards to go”代替轨迹整体回报改进了PG，但由于强化学习是通过采样轨迹来计算策略梯度的，但这种梯度计算方法往往具有较高的方差，意味着每次采样得到的梯度值差异可能很大，会影响策略更新的稳定性和收敛速度。

方差较高的原因：

智能体每次与环境交互产生的轨迹具体多样性和随机性
策略更新后，策略的微小变化可能会导致生成的轨迹发生很大改变

为了减少方差，可以引入基线（Baseline）。核心思想是，为每一步的“后续奖励”减去一个基准值，在数学上表示为b，即参考线，它不一定是一个常数，更多时候是状态 $s_{t}$ 的一个函数。这个参考线的实际意义是当前的状态下回报奖励的期望，那么超出期望（Baseline）的部分就是优势（Advantage）。在实际训练中，我们会用优势代替原来的“后续奖励”进行梯度估计，以减小方差。具体来说，使用 $G_t-b(s_t)$ 来代替 $G_t$ 作为权重，其中 $b(s_t)$ 是当前状态 $s_t$ 的基线值。

带基线的REINFORCE的梯度计算公式如下：

那么当前状态 $s_t$ 的基线值 $b(s_t)$ 如何计算？

“rewards to go” 即当前动作之后的奖励在强化学习中被称为 Q 函数（动作价值函数） $Qπ(s,a)Q^\pi(s,a)$ ，即在状态 s 采取动作 a 后，未来能获得的累积奖励期望。（即上面的 $G_t$ ）

当前状态 $s_t$ 的基线值 $b(s_t)$ 通常通过状态价值函数 $Vπ(s)V^\pi(s)$ 表示，状态价值函数 $Vπ(s)V^\pi(s)$ 指的是“状态 s 下的未来累积折扣回报期望”（基准值），可以被认为是对当前状态下「好坏」程度的评估。 $Vπ(s)V^\pi(s)$ 通常由一个网络估计出来（如用一个神经网络（价值模型）拟合 $Vπ(s)V^\pi(s)$ ，并与策略模型联合训练）

通过动作价值函数 $Qπ(s,a)Q^\pi(s,a)$ 减去状态价值函数 $Vπ(s)V^\pi(s)$ , 我们得到优势函数： $Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$ , 具体的含义是在某个状态 s 下，选择某个动作 a 相比于平均走法能提升多少胜率。如果这个动作带来的预期回报 $Qπ(s,a)Q^\pi(s,a)$ 远高于当前状态的基准水平 $Vπ(s)V^\pi(s)$ ，那么这个动作的优势就是正的，说明它非常值得采用；反之，则说明不如平均水平。优势函数在意的不是绝对的好，而是相对的好，即相对优势。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git