【强化学习】优势函数与广义优势估计

摘要：优势函数$A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)$衡量动作$a$在状态$s$下优于平均策略的程度。为简化计算，通常用TD误差$\delta_t=r_t+\gamma V^\pi(s_{t+1})-V^\pi(s_t)$近似优势函数。广义优势估计（GAE）通过参数$\lambda$平衡偏差与方差，融合多步TD残差：$A_t=\sum_{k=0}^T (\gamma\la

自信的小螺丝钉

902人浏览 · 2025-11-07 01:31:36

自信的小螺丝钉 · 2025-11-07 01:31:36 发布

优势函数

优势函数： $A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$ 表示在状态 s下，执行动作 a 比按照平均走法的期望回报高多少。其中 Q 函数（动作价值函数） $Q^\pi(s,a)$ ，表示在状态 s 采取动作 a 后，未来能获得的累积奖励期望。状态价值函数 $V^\pi(s)$ 指的是“状态 s 下的未来累积折扣回报期望”。

在实际应用中，如果直接使用 Q函数来计算优势函数，我们需要训练一个额外的 Q 函数网络，这增加了算法的复杂性。所以我们通常使用 TD 误差 $\delta_t$ 来近似优势函数，只需使用状态价值V函数，无需动作价值Q函数：

$A_t \approx \delta_t = r_t + \gamma V^\pi(s_{t+1}) - V^\pi(s_t)$

其中 $r_t$ 是 t 时刻的即时奖励， $V^\pi(s)$ 和 $ V^\pi(s_{t+1})$ 分别指的是当前状态和下一状态的估计价值（未来累积折扣回报的期望），$\gamma $ 是折扣因子，TD 误差 $\delta_t$ 可以看作是对优势函数的一个估计，表示当前状态的实际回报与预期回报之间的差值。

广义优势估计 (GAE)

MC步数太长，偏差小，方差大，TD步数太短，偏差大，方差小，为了平衡偏差和方差、对MC和TD进行折中，即 广义优势估计（Generalized Advantage Estimation，GAE) 。

用 TD 误差 $\delta_t$ 来近似优势函数是一种单步TD方法（【强化学习】时序差分法（TD,Temporal Difference）估计），为了更好地估计优势函数，我们可以使用 n 步回报，
$R_t^{(n)} = r_t+\gamma r_{t+1}+···+\gamma^{n-1} r_{t+n-1}+ \gamma^{n} V(s_{t+n})$

$V(s_{t+n})$ 是时间步t+n的状态价值估计，当n=1时，即单步TD，当n=∞, 即蒙特卡洛

GAE为了更灵活地进行偏差-方差权衡，使用「加权平均」的技巧，引入参数 λ 融合多步 TD 残差，公式定义如下：
$A_t = \sum_{k=0}^{T} ( {\gamma \lambda} )^ k \delta _{t+k}$

λ∈(0,1) 是GAE 权重， λ =0时，GAE即单步TD（0的0次方为0）， λ =1时，GAE基本为MC，而 GAE 引入 λ 的核心目的是平衡偏差与方差，实际应用中通常选择 λ=0.95，在偏差和方差之间取折中

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git