回顾

Deep Deterministic Policy Gradient (DDPG) 文章里提到了 DDPG 存在的三个缺点。
高估问题target Q 网络和参数更新顺序问题DPG 的方式增大了方差(可以采取类似期望 Sarsa 的方式减小方差)

算法描述

我们先来看问题 1 和 3,TD3 提出了 Clipped Double Q-Learning 和 Target Policy Smoothing Regularization 来解决,针对问题 2,提出了 Delayed Policy Updates。

Clipped Double Q-Learning

我们知道 DDPG 里面的 target Q 网络是:

r + γ N N t a r g e t ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) , w ) r + \gamma NN_{target}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta), w) r+γNNtarget(st+1,NNaction_target(st+1,θ),w)
N N t a r g e t NN_{target} NNtarget 预测是有可能高估的,一个网络可能高估,那么我们可以来两个(更多个,理论上效果更好),取最小的那个作为预测,就可以一定程度上缓解高估问题。
target Q1:
r + γ N N t a r g e t q 1 ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) , w 1 ) r + \gamma NN_{target_{q1}}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta), w1) r+γNNtargetq1(st+1,NNaction_target(st+1,θ),w1)

target Q2:
r + γ N N t a r g e t q 2 ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) , w 2 ) r + \gamma NN_{target_{q2}}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta), w2) r+γNNtargetq2(st+1,NNaction_target(st+1,θ),w2)

min(target Q1, target Q2) 作为最终的 target_Q。

Target Policy Smoothing Regularization

之前的文章 蒙特卡洛方法(MC)和时序差分(TD)介绍了期望 Sarsa 的方法,是一种比 Sarsa(DDPG 是本质上是 Sarsa)更稳定的方法,因为取了期望,相当于考虑了更多的动作,所以也可以用到 DDPG 里。

l o s s q = ( r + γ N N t a r g e t ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) , w ) ⏟ t d − t a r g e t − N N ( s t , N N a c t i o n ( s t + 1 , θ ′ ) + ϵ , w ′ ) ) 2 loss_q = (\underbrace{r + \gamma NN_{target}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta), w)}_{td-target} - NN(s_{t}, NN_{action}(s_{t+1}, \theta') + \epsilon , w'))^{2} lossq=(tdtarget r+γNNtarget(st+1,NNaction_target(st+1,θ),w)NN(st,NNaction(st+1,θ)+ϵ,w))2

lossq 实际上是平均平方误差(MSE,之前只是以一个采样为例子,所以没求平均),所以引入探索性后,就类似期望 Sarsa 那样。
我们知道 DDPG 动作网络也引入了随机扰动 σ \sigma σ

N N ( s t , N N a c t i o n ( s t + 1 , θ ′ ) + σ ) NN(s_{t}, NN_{action}(s_{t+1}, \theta') + \sigma) NN(st,NNaction(st+1,θ)+σ)

我们可以直接把这个扰动加到 target_Q 里面,来增强探索性吗?
当然不可以,这两个随机扰动的目的不同:
前者是为了经验回放采样数据的时候,获得更多的探索性,所以可以随心所欲的探索。
而后者是为了减小 target_Q 预测的方差,所以不应该随心所欲的探索,只是在当前状态动作附近的探索,因而应该给 σ \sigma σ
加上限制:

ϵ ′ ∼ clip ⁡ ( N ( 0 , σ ) , − c , c ) \epsilon' \sim \operatorname{clip}(\mathcal{N}(0, \sigma),-c, c) ϵclip(N(0,σ),c,c)

所以更新为:
target Q1:
r + γ N N t a r g e t q 1 ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) + ϵ ′ , w 1 ) r + \gamma NN_{target_{q1}}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta) + \epsilon', w1) r+γNNtargetq1(st+1,NNaction_target(st+1,θ)+ϵ,w1)

targetQ2:
r + γ N N t a r g e t q 2 ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) + ϵ ′ , w 2 ) r + \gamma NN_{target_{q2}}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta) + \epsilon', w2) r+γNNtargetq2(st+1,NNaction_target(st+1,θ)+ϵ,w2)

l o s s q 1 = ( r + γ N N t a r g e t q 1 ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) , w 1 ) ⏟ t d − t a r g e t − N N ( s t , N N a c t i o n ( s t + 1 , θ ′ ) + ϵ , w 1 ′ ) ) 2 loss_{q1} = (\underbrace{r + \gamma NN_{target_{q1}}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta), w1)}_{td-target} - NN(s_{t}, NN_{action}(s_{t+1}, \theta') + \epsilon , w1'))^{2} lossq1=(tdtarget r+γNNtargetq1(st+1,NNaction_target(st+1,θ),w1)NN(st,NNaction(st+1,θ)+ϵ,w1))2

l o s s q 2 = ( r + γ N N t a r g e t q 2 ( s t + 1 , N N a c t i o n _ t a r g e t ( s t + 1 , θ ) , w 2 ) ⏟ t d − t a r g e t − N N ( s t , N N a c t i o n ( s t + 1 , θ ′ ) + ϵ , w 2 ′ ) ) 2 loss_{q2} = (\underbrace{r + \gamma NN_{target_{q2}}(s_{t+1}, NN_{action\_target}(s_{t+1}, \theta), w2)}_{td-target} - NN(s_{t}, NN_{action}(s_{t+1}, \theta') + \epsilon , w2'))^{2} lossq2=(tdtarget r+γNNtargetq2(st+1,NNaction_target(st+1,θ),w2)NN(st,NNaction(st+1,θ)+ϵ,w2))2

l o s s q = l o s s q 1 + l o s s q 2 loss_q = loss_{q1} + loss_{q2} lossq=lossq1+lossq2

Delayed Policy Updates

这个很简单,看名字就能猜出来干了什么,就是 ω \omega ω θ \theta θ 不同时更新,且 θ \theta θ 更新在 ω \omega ω 更新几轮后,如果同时更新,相当于每次更新后,对相同的 state 产生了不同的 q 值,想当于引入新的残差 q(s, a) - q(s,a’)。所以为了减小这种误差, θ \theta θ 更新在 ω \omega ω 更新几轮后。所以 TD3 的软更新变成了(这里和文章不一样,文章说的 Delayed Policy Updates 是包括参数软更新也延迟了,我这里参数软更新没有延迟,需要做实验验证一下,理论上应该差距不大) :

ω 1 ← τ ω 1 ′ + ( 1 − τ ) ω 1 \omega1 \leftarrow \tau\omega1' + (1-\tau)\omega1 ω1τω1+1τω1

ω 2 ← τ ω 2 ′ + ( 1 − τ ) ω 2 \omega2 \leftarrow \tau\omega2' + (1-\tau)\omega2 ω2τω2+1τω2

延迟更新:

θ ← τ θ ′ + ( 1 − τ ) θ \theta \leftarrow \tau\theta' + (1-\tau)\theta θτθ+1τθ

缺点

ϵ \epsilon ϵ是高斯分布,和 Q 没有关系,而且 Q 使用的是确定性策略,实际上针对连续动作空间,采用随机策略,并且随机扰动和 Q 相关,才是更合理的,因为不但增加了探索性,而且探索性和 Q 的大小是相关的,Q 越大随机策略的探索性应该越小。

改进

针对这一缺点,下篇文章对 SAC 进行介绍,感谢阅读。

参考

https://arxiv.org/pdf/1802.09477.pdf

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐