【RL强化学习】Actor-Critic Methods

辰尘_星启

693人浏览 · 2025-07-17 13:05:52

辰尘_星启 · 2025-07-17 13:05:52 发布

核心要领

状态价值函数取决于两部分 $π(a∣s)\pi(a|s)$ 和 $Qπ(s,a)Q_{\pi}(s,a)$
故训练两个网络，Policy Network(actor)用于决策，Value Network(critic)用于判断这个决策的好坏
critic网络用梯度下降最小化与 $Qπreal\ Q_{\pi}$ 之间的Loss，actor网络用梯度上升最大化 $VπV_{\pi}$
计算 $VπV_{\pi}$ 离不开 $QπQ_{\pi}$ ，因此通常先算critic网络，再算actor网络，且critic网络的学习率通常来说会更大一些

Value Network(Critic)的内部结构

在这里插入图片描述
需要注意的是
Critic network和DQN完全不同

前者学的是当前策略 π 下的 $VπV_{\pi}$ 或 $QπQ_{\pi}$ ，Bootstrap时用的是策略生成的下一个动作。
后者学的是最优 $Q⋆Q_{\star}$ ，使用“最大化下步 Q 值”的贝尔曼最优方程

但是二者训练方法类似，都可以用n-step TD算法来更新网络参数

当前状态为 $s_t$ ，并执行决策 $a_t$ ，得到新状态 $s_{t+1}$ ，根据新状态再决策 $a_{t+1}$ 但不执行
根据 $q_t=q(s_t,a_t;w)$ 计算得到当前时刻和下一时刻的 $q_t\ \ q_{t+1}$
计算TD target： $yt=rt+γ⋅qt+1y_t=r_t+\gamma \cdot q_{t+1}$ ，我们可以认为 $y_t$ 是一个常量，它类似于监督学习中 $q_t$ 的标签
计算Loss： $L(w)=12[qt−yt]2L(w)=\frac{1}{2}[q_t-y_t]^2$ (用其他loss function也可以)
梯度下降： $wt+1=wt−α⋅∂L(w)∂w∣w=wtw_{t+1}=w_t-\alpha \cdot \frac{\partial L(w)}{\partial w}\mid_{w=w_t}$
其中 $∂L(w)∂w=(qt−yt)⋅∇wqt\frac{\partial L(w)}{\partial w}=(q_t-y_t)\cdot \nabla_w q_t$

实际训练流程

具体流程：
1. 收集当前状态
2. 根据现有策略做决策的随机采样，得决策 $a^\hat{a}$
3. 执行决策 $a^\hat{a}$ ，得到新状态和奖励
4. 用奖励执行TD算法更新Critic network的参数
5. 将Critic network的输出 $qπq_{\pi}$ ，代入公式 $g(a^,θ)=∇logπ(a^∣St)⋅qπ(St,a^)g(\hat{a},\theta)=\nabla log \pi(\hat{a}|S_t)\cdot q_{\pi}(S_t,\hat{a})$ ，用梯度上升 $θt+1=θt+β⋅g(a^,θt)\theta_{t+1}=\theta_t+\beta \cdot g(\hat{a},\theta_t)$ 更新actor network的参数
在这里插入图片描述

上图来自王树森老师的《深度强化学习》

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git