【学习强化学习】十一、Soft Actor-Critic

Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法，和DDPG相比，Soft Actor-Critic使用的是随机策略stochastic policy，相比确定性策略具有一定的优势。Soft Actor-Critic兼具稳定性高和样本利用率高的优点。......

CHH3213

3886人浏览 · 2022-07-08 16:11:21

CHH3213 · 2022-07-08 16:11:21 发布

文章目录

参考资料
前言
1. 介绍
2. Soft Policy Iteration
3. SAC
- 再参数化技巧!!!
4. 伪代码

参考资料

前言

Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法，和DDPG相比，Soft Actor-Critic使用的是随机策略stochastic policy，相比确定性策略具有一定的优势。Soft Actor-Critic兼具稳定性高和样本利用率高的优点。
SAC的一个主要特征是entropy regularization（熵正则化）. policy可以被训练去最大程度上权衡期望回报和熵。熵是策略随机性的一个衡量。增加熵也就说明策略的随机性增强，所以会增加更多的探索，从而可以加快后续的学习速度。可以防止policy过早的收敛到局部最优值。

1. 介绍

Soft Actor-Critic(SAC)算法学习的目标是最大化熵正则化的累积奖励而不只是累计奖励, 从而鼓励更多的探索。
$\max _{\pi_{\theta}} \mathbb{E}\left[\sum_{t} \gamma^{t}\left(r\left(S_{t}, A_{t}\right)+\alpha \mathcal{H}\left(\pi_{\theta}\left(\cdot \mid S_{t}\right)\right)\right)\right]$
这里 $\alpha$ 是正则化系数。

2. Soft Policy Iteration

柔性策略迭代（Soft Policy Iteration）是一个有理论保证的学习最优最大化熵策略的算法。和策略迭代类似，柔性策略迭代也分为两步：柔性策略评估（Soft policy evaluation)和柔性策略提高(Soft policy improvment)。

令
$V^{\pi}(s)=\mathbb{E}\left[\sum_{t} \gamma^{t}\left(r\left(S_{t}, A_{t}\right)+\alpha \mathcal{H}\left(\pi\left(\cdot \mid S_{t}\right)\right)\right)\right],$
其中 $s_{0}=s$ , 令
$a)+\gamma \mathbb{E}\left[V\left(s^{\prime}\right)\right]$
这里假设 $s^{\prime} \sim \operatorname{Pr}(\cdot \mid s, a)$ 是下一个状态。可以很容易地验证以下式子成立。
$V^{\pi}(s)=\mathbb{E}_{a \sim \pi}[Q(s, a)-\alpha \log (a \mid s)] .$
在柔性策略评估时, 定义的贝尔曼回溯算子 $\mathcal{T}$ 为
$\mathcal{T}^{\pi} Q(s, a)=r(s, a)+\gamma \mathbb{E}\left[V^{\pi}\left(s^{\prime}\right)\right] .$

和策略评估类似, 我们可以证明对于任何映射 $Q^{0}: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}, Q^{k}=\mathcal{T}^{\pi} Q^{k-1}$ 会收敛到 $\pi$ 的柔性 $Q$ 值。

在策略提高阶段, 我们用当前的 $Q$ 值求解以下最大化熵正则化奖励的优化问题。
$\pi(\cdot \mid s)=\arg \max _{\pi} \mathbb{E}_{a \sim \pi}[Q(s, a)+\alpha \mathcal{H}(\pi)]$

求解以上这个优化问题后可以得到的解为
$\pi(\cdot \mid s)=\frac{\exp \left(\frac{1}{\alpha} Q(s, \cdot)\right)}{Z(s)} .$
这里 $Z (s)$ 是归一化常数, 也即 $Z(s)=\sum_{a} \exp \left(\frac{1}{\alpha} Q(s, a)\right)$ 。如果采用的策略模型无法表达最优的策略 $\pi$ , 我们可以进一步求解
$\pi(\cdot \mid s)=\arg \min _{\pi \in \Pi} D_{\mathrm{KL}}\left(\pi(\cdot \mid s) \| \frac{\exp \left(\frac{1}{\alpha} Q(s, \cdot)\right)}{Z(s)}\right) .$
我们可以证明在学习过程, 上面描述的柔性策略提高阶段也有单调提高的性质。即使在使用 KL-散度投影到 $\Pi$ 之后这个性质也是成立的。最后, 我们可以证明柔性策略迭代和策略迭代类似收敛到最优解, 如以下定理所示。

定理 $6.1$ : 让 $\pi_{0} \in \Pi$ 为初始策略。假设在柔性策略迭代算法下, $\pi_{0}$ 会收敛到 $\pi *$ , 那么对任意的 $\in \mathcal{S} \times \mathcal{A}$ 和任意的 $\pi \in \Pi, Q^{\pi *}(s, a) \geqslant Q^{\pi}(s, a)$ 。

3. SAC

SAC 进一步把柔性策略迭代拓展到更实用的函数近似设定下, 它采用在价值函数和策略函数之间进行交替优化的方式来学习, 而不只是通过估计策略 $\pi$ 的 $Q$ 值来提升策略。

令 $Q_{\phi}(s, a)$ 表示 $Q$ 值函数, $\pi_{\theta}$ 表示策略函数。这里我们考虑连续动作的设定并假设 $\pi_{\theta}$ 的输出为一个正态分布的期望和方差。 $Q$ 值函数可以通过最小化柔性 Bellman 残差来学习:
$J_{Q}(\phi)=\mathbb{E}\left[\left(Q\left(S_{t}, A_{t}\right)-r\left(S_{t}, A_{t}\right)-\gamma \mathbb{E}_{S_{t+1}}\left[V_{\tilde{\phi}}\left(S_{t+1}\right)\right]\right)^{2}\right]$
这里 $V_{\tilde{\phi}}(s)=\mathbb{E}_{\pi_{\theta}}\left[Q_{\tilde{\phi}}(s, a)-\alpha \log \pi_{\theta}(a \mid s)\right], Q_{\tilde{\phi}}$ 表示参数 $\tilde{\phi}$ 由 $Q$ 值函数的参数 $\phi$ 的指数移动平均数得到的目标 $Q$ 值网络。策略函数 $\pi_{\theta}$ 可以通过最小化以下的 KL-散度得到。
$J_{\pi}(\theta)=\mathbb{E}_{s \sim \mathcal{D}}\left[\mathbb{E}_{a \sim \pi_{\theta}}\left[\alpha \log \pi_{\theta}(a \mid s)-Q_{\phi}(s, a)\right]\right]$
实际中, SAC 也使用了两个 $Q$ 值函数（同时还有两个 $Q$ 值目标函数）来处理 $Q$ 值估计的偏差问题, 也就是令 $Q_{\phi}(s, a)=\min \left(Q_{\phi_{1}}(s, a), Q_{\phi_{2}}(s, a)\right)$ 。注意到 $J_{\pi}(\theta)$ 中的期望也依赖于策略 $\pi_{\theta}$ , 我们可以使用似然比例梯度估计的方法来优化 $J_{\pi}(\theta)$ 。

在连续动作空间的设定下, 我们也可以用策略网络的再参数化来优化。这样往往能够减少梯度估计的方差。再参数化的做法将 $\pi_{\theta}$ 表示成一个使用状态 $s$ 和标准正态样本 $\epsilon$ 作为其输入的函数直接输出动作 $a$ :
$a=f_{\theta}(s, \epsilon) .$
代入 $J_{\pi}(\theta)$ 的式子中
$J_{\pi}(\theta)=\mathbb{E}_{s \sim \mathcal{D}, \epsilon \sim \mathcal{N}}\left[\alpha \log \pi_{\theta}\left(f_{\theta}(s, \epsilon) \mid s\right)-Q_{\phi}\left(s, f_{\theta}(s, \epsilon)\right)\right]$
式中 $\mathcal{N}$ 表示标准正态分布, $\pi_{\theta}$ 现在被表示为 $f_{\theta}$ 。

最后, SAC 还提供了自动调节正则化参数 $\alpha$ 方法。该方法通过最小化以下损失函数实现。
$J(\alpha)=\mathbb{E}_{a \sim \pi_{\theta}}\left[-\alpha \log \pi_{\theta}(a \mid s)-\alpha \kappa\right]$

这里 $\kappa$ 是一个可以理解为目标熵的超参数。这种更新 $\alpha$ 的方法被称为自动熵调节方法。其背后的原理是在给定每一步平均熵至少为 $\kappa$ 的约束下, 原来的策略优化问题的对偶形式。

再参数化技巧!!!

再参数化技巧 (Reparameterization Trick) 是将一个条件高斯概率密度 $\mid x)=\mathcal{N}\left(\mu(x), \sigma^{2}(x)\right)$ 写作函数 $y(x)=\mu(x)+\sigma(x) \epsilon, \epsilon \sim \mathcal{N}(0,1)$ 。

因而我们可以按程序生成样本, 先采样 $\epsilon$ 再以一种确定性的方式得到 $y$ , 这使得对随机性策略的采样过程进行梯度追踪。实际上根据同样的过程也可以得到从动作价值函数到策略间的反向传播梯度。为了像 DPG 那样通过价值函数来得到随机性策略的梯度, SAC使用了这个再参数化技巧, 并且对随机噪声取了额外的期望值，从而可以使用随机性策略进行连续控制。

比如, 在 SAC 中, 随机性策略被一个均值和一个方差, 以及一个从正态分布（Normal Distribution）中采样的噪声项再参数化。SAC 中的优化目标有一个额外的熵相关项:
$\pi^{*}=\arg \max _{\pi} \mathbb{E}_{\tau \sim \pi}\left[\sum_{t=0}^{\infty} \gamma^{t}\left(R\left(S_{t}, A_{t}, S_{t+1}\right)+\alpha H\left(\pi\left(\cdot \mid S_{t}\right)\right)\right)\right]$

因此, 价值函数和 $\mathrm{Q}$ 值函数间的关系变为
$\begin{aligned} V^{\pi}(s) &=\mathbb{E}_{a \sim \pi}\left[Q^{\pi}(s, a)\right]+\alpha H(\pi(\cdot \mid s)) \\ &=\mathbb{E}_{a \sim \pi}\left[Q^{\pi}(s, a)-\alpha \log \pi(a \mid s)\right] \end{aligned}$
$\mathrm{SAC}$ 中使用的策略是一个 Tanh 归一化高斯分布, 这与传统设置不同。SAC 中的动作表示可以使用如下再参数化技巧:
$a_{\theta}(s, \epsilon)=\tanh \left(\mu_{\theta}(s)+\sigma_{\theta}(s) \cdot \epsilon\right), \epsilon \sim \mathcal{N}(0, I)$

由于 SAC 中策略的随机性, 策略梯度可以在最大化期望价值函数时使用再参数化技巧得到, 即:
$\begin{aligned} &\max _{\theta} \mathbb{E}_{a \sim \pi_{\theta}}\left[Q^{\pi_{\theta}}(s, a)-\alpha \log \pi_{\theta}(a \mid s)\right] \\ &=\max _{\theta} \mathbb{E}_{\epsilon \sim \mathcal{N}}\left[Q^{\pi_{\theta}}(s, a(s, \epsilon))-\alpha \log \pi_{\theta}(a(s, \epsilon) \mid s)\right] \end{aligned}$
因而, 梯度可以经过 $\mathrm{Q}$ 网络到策略网络, 与 $\mathrm{DPG}$ 类似, 即:
$\nabla_{\theta} \frac{1}{|\mathcal{B}|} \sum_{S_{t} \in \mathcal{B}}\left(Q^{\pi_{\theta}}\left(S_{t}, a\left(S_{t}, \epsilon\right)\right)-\alpha \log \pi_{\theta}\left(a\left(S_{t}, \epsilon\right) \mid S_{t}\right)\right)$
其使用一个采样batch $\mathcal{B}$ 来更新策略, 而 $a\left(S_{t}, \epsilon\right)$ 通过再参数化技巧来从随机性策略中采样。在这种情况下, 再参数化技巧使得随机性策略能够以一种类似于 DPG 的方式来更新。