【强化学习】基于策略的强化学习算法——策略梯度法

自信的小螺丝钉

1037人浏览 · 2025-11-02 17:33:51

自信的小螺丝钉 · 2025-11-02 17:33:51 发布

相比基于价值的强化学习算法，基于策略的强化学习算法的思想是：直接找到一个最优策略 π(a|s)。这个策略能告诉智能体，在状态 s 下，应该选择动作 a 的概率，使智能体在与环境交互过程中获得的累积奖励最大。

本文介绍基于策略的强化学习算法中的策略梯度法：

Policy Gradient（策略梯度法）

策略梯度（PG）方法是一类直接优化策略 $π_θ(a∣s)$ 的方法，其核心思想是通过调整策略参数 $θ$ 来最大化期望累积奖励，策略本身是参数化的函数（如神经网络），通过梯度上升法不断调整策略参数，以最大化累积累积奖励的期望

策略梯度定理：

在此之前，首先介绍策略梯度定理，策略梯度定理是基于策略方法的理论基础，它提供了一种直接优化策略参数 $θ$ 的方法，以最大化期望累积奖励，累积奖励通常用目标函数 $J (θ)$ 表示：

$G(τ)=∑t=0TγtrtG(\tau)=\sum_{t=0}^T \gamma^t r_t$ , $r_t$ 表示在时刻 t 的奖励， $γ\gamma$ 表示折扣率， $J(θ)J(\theta)$ 是所有轨迹的回报的期望值，也是优化的目标，策略梯度法是希望找到使得 $J(θ)J(\theta)$ 最大的策略参数 $θ$ 。

直接计算期望的梯度比较困难，我们通常使用蒙特卡洛采样方法（通过采样来估计期望值来）近似计算梯度。具体在PG里，蒙特卡洛采样方法在策略 $πθ\pi_{\theta}$ 下采样多条轨迹，然后使用这些轨迹回报的均值来近似计算梯度。

策略梯度定理表明，目标函数 $J(θ)J(\theta)$ 对策略参数 $θ$ 的梯度 $∇θJ(θ)\nabla_{\theta}J(\theta)$ 可以表示为：

其中：

$πθ(at∣st)\pi_{\theta}(a_t|s_t)$ 表示策略 $πθ\pi_{\theta}$ 在状态 $s_t$ 下选择动作 $a_t$ 的概率
$∇θlogπθ(at∣st)\nabla_{\theta} log \pi_{\theta}(a_t|s_t)$ 表示策略 $πθ\pi_{\theta}$ 在状态 $s_t$ 下选择动作 $a_t$ 的对数概率关于参数 $θ$ 的梯度

解释为什么目标函数$ J(θ) $对策略参数的梯度可以这么表示?

以上，策略梯度定理介绍完了，策略梯度方法中，策略参数根据梯度上升法优化： $θt+1=θt+α∇θJ(θ)\theta_{t+1} = \theta_{t} + \alpha \nabla_{\theta} J(\theta)$ ，使得策略朝着期望回报最大的方法更新

通过公式可以看出：如果某个轨迹 $τ\tau$ 的累积奖励 $G(τ)G(\tau)$ 为正，我们就希望这个轨迹中的动作被选择的概率 $πθ(at∣st)\pi_{\theta} (a_t | s_t)$ 更高；如果为负，我们就希望这个轨迹中的动作被选择的概率更低。

结论：策略梯度法提供了一种直接优化策略的方法，避免了基于值函数的间接优化，核心是通过调整策略参数，使得高回报的动作被选择的概率增加，低回报的动作被选择的概率减少。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git