深度强化学习DRL——价值学习

在深度强化学习DRL中，价值学习（Value-Based-Learning）和策略学习（Policy-Based-Learning）是两种核心方法，它们的区别在于学习的目标和输出形式。本次博客先介绍价值学习部分。

m0_64785134

1175人浏览 · 2025-06-24 16:37:21

m0_64785134 · 2025-06-24 16:37:21 发布

一、深度强化学习的“深度”体现在哪里？

前面介绍了动作价值函数、最优动作价值函数以及状态价值函数，那么如果想直接用数学表达式来写出这些函数是极为困难的，最有效的方法就是使用（深度）神经网络来近似这些价值函数。

强化学习+神经网络=深度强化学习

二、DQN算法

以DQN算法为例，如果要近似学习最优动作价值函数 $Q⋆Q_{\star}$ ，最有效的办法就是深度Q网络（deep Q network, DQN），记作 $\bm w)$ ，其中的 $w\bm w$ 表示神经网络的参数。
首先随机初始化 $w\bm w$ ，随后用“经验”去学习 $w\bm w$ 。学习的目标是：对于所有 $s$ 和 $a$ ，DQN的预测 $\bm w)$ 尽量接近 $Q⋆(s,a)Q_{\star}(s,a)$ 。
DQN
上图是DQN的神经网络架构，输入是状态s，输出是每个动作的Q值。
DQN的输出是 $∣A∣\vert \mathcal A \vert$ 维的向量 $q^\hat q$ ，包含所有动作的价值，而常用的符号 $\bm w)$ 是标量（其实就是函数值），是动作 $a$ 对应的动作价值，是向量 $q^\hat q$ 中的一个元素。

三、训练DQN采用TD（temporal difference, 时间差分）算法

3.1 TD算法推导（感兴趣的可以看一下，此处推导的是Q-learning算法）

根据回报的定义：
$U_t= R_t+ r \cdot \underbrace { \sum_{k=t+1} ^n \gamma^{k-t-1} \cdot R_k } _{=U_{t+1}}$

1、一开始我以为顺序写反了，后来仔细想了一下，这个回报计算公式是对的。因为回报代表的是一轮的奖励，t时刻的回报当然需要知道这一轮中t+1时刻及以后的奖励。反过来说，t+1时刻的回报就已知t时刻以及之前的奖励。注意，不是已知t时刻以及之前的回报。
2、关于回报和奖励的概念，大家需要搞清楚。

最优动作价值函数：
$Q_{\star}(s_t,a_t) = \max_\pi \mathbb E [U_t \vert S_t =s_t, A_t = a_t]$
定理：最优贝尔曼方程
$\underbrace {Q_{\star}(s_t,a_t)} _{U_t的期望} = \mathbb E _{S_{t+1} \sim p(\cdot \vert s_t, a_t)} [R_t+ \gamma \cdot \underbrace{ \max_{A \in \mathcal A} Q_{\star}(S_{t+1},A) }_{U_{t+1}的期望}\vert S_t=s_t, A_t=a_t]$
同时， $rt+γ⋅max⁡a∈AQ⋆(st+1,a)r_t+\gamma \cdot \max_{a \in \mathcal A} Q_{\star} (s_{t+1},a)$ 可以看作期望的蒙特卡洛近似：
$\mathbb E _{S_{t+1} \sim p(\cdot \vert s_t, a_t)} [R_t+ \gamma \cdot \max_{A \in \mathcal A} Q_{\star}(S_{t+1},A) \vert S_t=s_t, A_t=a_t]$
综上，由最优贝尔曼方程和蒙特卡洛近似可得：
$Q_{\star}(s_t,a_t) \approx r_t+\gamma \cdot \max_{a \in \mathcal A} Q_{\star} (s_{t+1},a)$
把最优动作价值函数 $Q⋆(s,a)Q_{\star}(s,a)$ 替换为神经网络 $\bm w)$ ，得到：
$Q(st,at;w)⏟预测qt^≈rt+γ⋅max⁡a∈AQ(st+1,a;w)⏟TD目标yt^ \underbrace {Q(s_t,a_t; \bm w)} _{预测\hat {q_t}} \approx \underbrace { r_t+\gamma \cdot \max_{a \in \mathcal A} Q(s_{t+1},a; \bm w)} _{TD目标\hat {y_t}}$
左边的 $qt^\hat {q_t}$ 是神经网络在t时刻做出的预测，其中没有任何事实成分。
右边的TD目标 $yt^\hat {y_t}$ 是神经网络在t+1时刻做出的预测，它部分基于真实观测到的奖励 $r_t$ 。
$qt^\hat {q_t}$ 和 $yt^\hat {y_t}$ 都是对最优动作价值函数 $Q⋆(st,at)Q_{\star}(s_t,a_t)$ 的估计，但是 $yt^\hat {y_t}$ 部分基于事实，因此比 $qt^\hat {q_t}$ 更可靠。
TD算法的目标应当鼓励 $qt^\hat {q_t}$ $=△Q(st,at;w)\overset{\triangle}{=}Q(s_t,a_t; \bm w)$ 接近 $yt^\hat {y_t}$ ，通过更新参数 $w\bm w$ ，使得损失函数 $L(w)=12[Q(st,at;w)−yt^]2L(\bm w)= \frac 1 2 [Q(s_t,a_t; \bm w)-\hat {y_t}]^2$ 减小。

3.2 Q-learning算法

TD算法是一大类算法，常见的有Q-learning算法和SARSA算法。
Q-learning算法的目的是学到最优动作价值函数 $Q⋆Q_{\star}$ ，而SARSA算法的目的是学习动作价值函数 $QπQ_{\pi}$ 。
上一节介绍的DQN其实就是神经网络形式的Q-learning，而最开始的Q-learning是以表格形式出现的。
表格形式的Q-learning应用条件受限，Q表中状态空间 $S\mathcal S$ 和动作空间 $A\mathcal A$ 都是有限集合，即集合中元素数量有限。
将最优动作价值函数 $Q⋆Q_{\star}$ 表示为如下的表格形式。即Q表：
在这里插入图片描述
$S\mathcal S$ 中一共有3种状态， $A\mathcal A$ 中一共有4种动作，那么最优动作价值函数 $Q⋆(s,a)Q_{\star}(s,a)$ 可以表示为一个 $\times 4$ 的表格。
例如，当前状态 $s_t$ 是第2种状态，那么查看第2行，发现该行最大的价值是210，那么应当执行的动作 $a_t$ 就是第4种动作。

如果 $A\mathcal A$ 是有限集合，而 $S\mathcal S$ 是无限集合，可以用神经网络形式的Q-learning，即DQN。
如果 $A\mathcal A$ 是无限集合，则问题属于连续控制，应当使用连续控制的方法。
DQN更新的是神经网络参数 $w\bm w$ ，而表格形式的Q-learning每次更新表格的一个元素，最终初始化的全零表格 $Q~\tilde Q$ 会收敛到 $Q⋆Q_{\star}$

四、同策略与异策略

（这两个专业术语，在写论文或者翻译论文的时候，经常会有不同的译文，有时审稿人或者专家也会提出相关意见）
首先介绍一下行为策略和目标策略。
行为策略（behavior policy）是控制智能体与环境交互的策略，其作用是收集经验，即观测到的状态、动作和奖励。
目标策略（target plicy）是一个确定性的策略，例如，使用DQN控制智能体。
$a_t = \argmax_a Q(s_t,a,\bm w)$

$\begin{cases} 同策略（on-policy）:行为策略=目标策略，即收集经验的行为策略和控制智能体的目标策略相同 \\ 异策略（off-policy）:行为策略 \neq目标策略，即收集经验的行为策略和控制智能体的目标策略不同 \end{cases}$
在这里插入图片描述
之前介绍的Q-learning和DQN都属于异策略，它们的行为策略最常采用的是 $ϵ\epsilon$ -greedy算法：
$a_t= \begin{cases} \argmax_a Q(s_t,a;\bm w) \quad \quad 以概率(1-\epsilon) \\ 均匀抽取\mathcal A中的一个动作 \quad \quad 以概率\epsilon \end{cases}$

让行为策略带有随机性的好处是能探索更多没见多的状态。

异策略的好处是可以用行为策略收集经验，把 $s_t,a_t,r_t,s_{t+1})$ 这样的四元组记录到一个缓存里，后面反复利用这些经验去更新目标策略。
这个缓存称为经验回放缓存，而这种将智能体与环境交互的记录暂时保存，然后从中采样和学习的训练方式称为经验回放（experience replay）。

经验回放只适用于异策略，不适用与同策略，原因是收集经验时用的行为策略不用于想要训练出来的目标策略。

五、SARSA算法

SARSA也是一种TD算法，其目标是学习动作价值函数 $Qπ(s,a)Q_{\pi}(s,a)$ 。
SARSA是state-action-reward-state-action的缩写，原因就是它用到了五元组： $(st,at,rt,st+1,a~t+1)(s_t,a_t,r_t,s_{t+1},\tilde a_{t+1})$
$\tilde a_{t+1} \sim \pi(\cdot \vert s_{t+1})$
SARSA算法学到的 $q$ 依赖于策略 $π\pi$ ，因为五元组中的 $a~t+1\tilde a_{t+1}$ 是根据 $π(⋅∣st+1)\pi(\cdot \vert s_{t+1})$ 抽样得到的。

Q-learning和SARSA的对比

在这里插入图片描述
Q-learning的目标是学到表格 $Q~\tilde Q$ ，作为最优动作价值函数 $Q⋆Q_{\star}$ 的近似，因为 $Q⋆Q_{\star}$ 与 $π\pi$ 无关，所以在理想情况下，不论收集经验用的行为策略 $π\pi$ 是什么，都不影响Q-learning得到的最优动作价值函数。因此Q-learning属于异策略，允许行为策略区别于目标策略。Q-learning允许使用经验回放，可以重复利用过时的经验。

SARSA算法的目标是学习到 $q$ 表，作为动作价值函数 $QπQ_{\pi}$ 的近似， $QπQ_{\pi}$ 与一个策略 $π\pi$ 相对应，用不用的策略 $π\pi$ ，对应的 $QπQ_{\pi}$ 就会不同。策略 $π\pi$ 越好， $QπQ_{\pi}$ 的值越大。经验回放缓存里面的经验 $s_t,a_t,r_t,s_{t+1})$ 是过时的行为策略 $πold\pi_{old}$ 收集到的，与当前策略 $πnow\pi_{now}$ 及其对应的价值 $QπnowQ_{\pi_{now}}$ 不对应。想要学习 $QπQ_{\pi}$ 的话，必须用当前策略 $πnow\pi_{now}$ 收集到的经验，而不能用过时的 $πold\pi_{old}$ 收集到的经验，这就是SARSA算法不能使用经验回放的原因。

六、蒙特卡洛方法和自举

$（自举）单步TD目标：y^t=rt+γq^t+1m=1←m步TD目标：y^t=∑i=0m−1γirt+i+γmq^t+mm=n−t+1→（蒙特卡洛方法）观测到的回报：ut=∑i=0n−tγirt+i （自举）单步TD目标：\hat y_t=r_t+\gamma \hat q_{t+1} \quad \quad \underleftarrow{m=1} \quad \quad m步TD目标： \hat y_t=\sum_{i=0}^{m-1} \gamma^i r_{t+i}+\gamma^m \hat q_{t+m} \quad \quad \underrightarrow{m=n-t+1} \quad \quad （蒙特卡洛方法）观测到的回报：u_t= \sum_{i=0}^{n-t} \gamma^ir_{t+i}$

6.1 蒙特卡洛方法

训练价值网络 $q(s,a;w)q(s,a;\bm w)$ 的时候，将一个回合进行到底，观测到所有的奖励 $,rnr_1,r_2,\cdots,r_n$ ，然后计算回报 $ut=∑i=0n−tγirt+iu_t= \sum_{i=0}^{n-t} \gamma^ir_{t+i}$ ，以 $u_t$ 作为目标，鼓励价值网络 $q(st,at;w)q(s_t,a_t;\bm w)$ 接近 $u_t$ ，这种方式称为“蒙特卡洛方法”。用实际观测值 $u_t$ 去近似动作价值函数 $Qπ(st,at)=E[Ut∣St=st,At=at]Q_{\pi}(s_t,a_t)=\mathbb {E} [U_t \vert S_t=s_t, A_t =a_t]$ 中的期望，这就是典型的蒙特卡洛方法近似。

6.2 自举

TD目标 $y^t\hat y_t$ 的一部分是价值网络做出的估计 $γ⋅q(st+1,at+1;w)\gamma \cdot q(s_{t+1},a_{t+1};\bm w)$ ，然后SARSA让 $q(st,at;w)q(s_t,a_t;\bm w)$ 去拟合 $y^t\hat y_t$ ，这就是用价值网络自身做出的估计去更新价值网络自身，属于“自举”。

6.3 对比

在这里插入图片描述

	好处	坏处
蒙特卡洛方法	无偏性	方差大
自举	方差小	有偏差

在价值学习中，用实际观测到的回报 $u_t$ 作为目标的方法称为蒙特卡洛方法， $u_t$ 是动作价值函数 $Qπ(st,at)Q_{\pi}(s_t,a_t)$ 的无偏估计，即 $U_t$ 的期望等于 $Qπ(st,at)Q_{\pi}(s_t,a_t)$ ，但是它的方差很大，即实际观测到的 $u_t$ 可能离 $Qπ(st,at)Q_{\pi}(s_t,a_t)$ 很远。

用单步TD目标 $y^t\hat y_t$ 作为目标的方法称为自举。自举的好处是方差小， $y^t\hat y_t$ 不会偏离期望太远，但是 $y^t\hat y_t$ 往往是有偏的，它的期望通常不等于 $Qπ(st,at)Q_{\pi}(s_t,a_t)$ ，用自举训练出来的价值网络通常有系统性的偏差（低估或者高估）。

在实践中，自举通常比蒙特卡洛方法收敛得更快，这也是训练DQN和价值网络通常用TD算法的原因。

多步TD目标 $y^t=∑i=0m−1γirt+i⏟蒙特卡洛方法，占比较大+γmq^t+m⏟自举成分，用价值网络自身算出来的\hat y_t=\underbrace{ \sum_{i=0}^{m-1} \gamma^i r_{t+i}}_{蒙特卡洛方法，占比较大}+\underbrace{ \gamma^m \hat q_{t+m}}_{自举成分，用价值网络自身算出来的}$ 介于蒙特卡洛方法和自举之间。
如果把m设置的比较好，方差和偏差之间就可以达到比较好的平衡，使得多步TD目标优于单步TD目标，也优于回报 $u_t$ 。

七、价值学习中的高级技巧

第一部分：改进Q-learning算法

7.1 经验回放

经验回放每次从缓存里随机抽取一个四元组 $s_t,a_t,r_t,s_{t+1})$ ，用来对DQN参数做一次更新，这样随机抽取到的四元组之间是相互独立的，消除了相关性。
经验回放的另一个好处是可以重复利用收集到的经验，而不是用一次就丢弃，这样就能用更少的样本数量达到同样的效果。
但是经验回放缓存中的经验通常是过时的行为策略收集的，而真正需要学习的目标策略不同于过时的行为策略，所以经验回放不适用于同策略。

7.2 优先经验回放

优先经验回放给每个四元组一个权重，然后根据权重做非均匀随机抽样。一般来说，TD误差越大的四元组，应当有较高的权重。

7.3 高估问题

Q-learning算法有一个缺陷：用它训练出来的DQN会高估真实的价值，而且高估通常是非均匀的，这个缺陷导致DQN表现很差。但是高估问题不是DQN模型的缺陷，而是Q-learning算法的缺陷。
Q-learning产生高估的原因有两个：

TD算法属于自举，即用DQN的估计值去更新DQN自己，自举会导致偏差传播。如果 $Q(sj+1,aj+1;w)Q(s_{j+1},a_{j+1}; \bm w)$ 是对 $Q⋆(sj+1,aj+1)Q_{\star}(s_{j+1},a_{j+1})$ 的高估，那么高估会传播到 $s_{j},a_{j})$ ，让 $Q(sj,aj;w)Q(s_{j},a_{j};\bm w)$ 高估 $Q⋆(sj,aj)Q_{\star}(s_{j},a_{j})$ ，所以自举导致DQN的高估从一个二元组传播到更多的二元组。
TD目标 $y^t\hat y_t$ 中包含一项最大化，这会导致TD目标高估真实价值 $Q⋆Q_{\star}$ ，Q-learning算法鼓励DQN的预测去接近TD目标，因此DQN会高估 $Q⋆Q_{\star}$

虽然高估本身不是问题，但是DQN产生的高估往往是非均匀的，那么DQN做出的决策就是不可靠的。

7.4 高估问题解决方案1——使用目标网络

如果想要切断自举，可以用另一个神经网络计算TD目标，而不是DQN自己计算TD目标，我们把这个神经网络称作目标网络（target network），记作 $Q(s,a;w−)Q(s,a;\bm w^-)$ 。它的神经网络结果与DQN完全相同，但是参数 $w−\bm w^-$ 不同于 $w\bm w$ 。

在这里插入图片描述

使用目标网络的Q学习算法，选择动作和求值TD目标都使用目标网络计算得到的。
这种方法不能完全避免自举，原因是目标网络的参数仍然与DQN相关。

7.5 高估问题解决方案2——双Q学习算法（double DQN，即DDQN的基础）

到目前为止，已经接触到了3种训练DQN的TD算法：
原始的Q-learning $⟹\Longrightarrow$ 使用目标网络的Q-learning $⟹\Longrightarrow$ 双Q学习：选择动作使用DQN网络，求值TD目标使用目标网络。
3种TD算法对比：
在这里插入图片描述

第二部分：改进DQN的神经网络结构

7.6 对决网络（dueling network）

对决网络（dueling network）：将最优动作价值 $Q⋆Q_{\star}$ 分解为最优状态价值 $V⋆V_{\star}$ 和最优优势 $D⋆D_{\star}$ 。
状态价值函数 $Vπ(s)V_{\pi}(s)$ 是 $Qπ(s,a)Q_{\pi}(s,a)$ 关于 $a$ 的期望：
$V_{\pi}(s)=\mathbb E_{A \sim \pi} [Q_{\pi}(s,A)]$
最优状态价值函数 $V⋆V_{\star}$ ：
$V_{\star}(s) = \max_{\pi} V_{\pi}(s) , \quad \quad \forall s \in S$
最优优势函数（optimal advantage function）
$D_{\star}(s,a)\triangleq Q_{\star}(s, a) - V_{\star}(s)$
定理
$Q_{\star}(s, a) = V_{\star}(s) + D_{\star}(s, a) - \underbrace{\max_{a \in \mathcal{A}} D_{\star}(s, a)}_{\text{恒等于零，同时解决不唯一性的问题}}, \quad \forall s \in \mathcal{S}, a \in \mathcal{A}$
对决网络也是对最优动作价值函数 $Q⋆Q_{\star}$ 的近似。
$\begin{cases} 神经网络1：D(s,a;\bm w^D) ，是对最优优势函数D_{\star}(s,a)的近似\\ 神经网络2：V(s;\bm w^V)，是对最优状态价值函数V_{\star}(s)的近似 \end{cases}$
因此，最优动作价值函数 $Q⋆Q_{\star}$ 就可以近似成下面的神经网络：
$Q(s,a;\boldsymbol{w}) \triangleq V\left(s;\boldsymbol{w}^{V}\right) + D\left(s, a;\boldsymbol{w}^{D}\right) - \max_{a \in \mathcal{A}} D\left(s, a;\boldsymbol{w}^{D}\right)$

在这里插入图片描述
上图为对决网络的结构。输入是状态 s；红色的向量是每个动作的优势值；蓝色的标量是状态价值；最终输出的紫色向量是每个动作的动作价值。

7.7 噪声网络

在这里插入图片描述

$μ\mu$ 和 $σ\sigma$ 分别表示均值和标准差，它们是神经网络的参数，需要从经验中学习， $ξ\xi$ 是随机噪声，它的每个元素独立以标准正态分布 $N (0, 1)$ 中随机抽取。符号 $∘\circ$ 表示逐项乘积。
$w_i = \mu_i + \sigma_i \cdot \xi_i$
某一个全连接层记作：
$\boldsymbol{z} = \operatorname{ReLU}(\boldsymbol{W}\boldsymbol{x} + \boldsymbol{b})$
加入噪声网络后为：
$\boldsymbol{z} = \operatorname{ReLU}\left( \left( \boldsymbol{W}^{\mu} + \boldsymbol{W}^{\sigma} \circ \boldsymbol{W}^{\xi} \right) \boldsymbol{x} + \left( \boldsymbol{b}^{\mu} + \boldsymbol{b}^{\sigma} \circ \boldsymbol{b}^{\xi} \right) \right)$
把噪声网络应用于DQN：
$Q(s,a;\bm w) \Longrightarrow \widetilde{Q}(s, a, \boldsymbol{\xi}; \boldsymbol{\mu}, \boldsymbol{\sigma}) \triangleq Q(s, a; \boldsymbol{\mu} + \boldsymbol{\sigma} \circ \boldsymbol{\xi})$

其中的 $μ\mu$ 和 $σ\sigma$ 是参数，一开始随机初始化，然后从经验中学习；而 $ξ\xi$ 则是随机生成，每个元素都从 $N (0, 1)$ 中抽取。噪声 DQN 的参数数量比标准 DQN 多一倍。

噪声 DQN 本身就带有随机性，可以鼓励探索，起到与 $ϵ\epsilon$ -Greedy 策略相同的作用。直接用 $Q~(s,a,ξ;μ,σ)a_t = \underset{a \in \mathcal{A}}{\operatorname{argmax}}\, \widetilde{Q}(s, a, \boldsymbol{\xi}; \boldsymbol{\mu}, \boldsymbol{\sigma})$ 作为行为策略，效果比 $ϵ\epsilon$ -Greedy 更好。因为DQN是异策略，每做一个决策，就要重新随机生成一个 $ξ\xi$

做完训练之后，可以用噪声 DQN 做决策。做决策的时候不再需要噪声，因此可以把参数 $σ\sigma$ 设置成全零，只保留参数 $μ\mu$ 。这样一来，噪声 DQN 就变成标准的 DQN：
$\underbrace{\widetilde{Q}\left(s,a,\boldsymbol{\xi}^{\prime};\boldsymbol{\mu},\boldsymbol{0}\right)}_{\text{噪声 DQN}}=\underbrace{Q\left(s,a;\boldsymbol{\mu}\right)}_{\text{标准 DQN}}.$

在训练的时候往 DQN 的参数中加入噪声，不仅有利于探索，还能增强鲁棒性（健壮性）。意思是即使参数被扰动，DQN 也能对最优动作价值 $Q⋆Q_{\star}$ 做出可靠的估计

八、实际编程DQN的完整实现流程

应用优先经验回放、双Q学习、对决网络、噪声DQN来编程实现DQN的完整流程：

开始随机初始化 $μ、σ\mu、\sigma$ ,并且把它们赋值给目标网络参数: $μ−←μ、σ−←σ\mu^-\leftarrow\mu、\sigma^-\leftarrow\sigma$ ；然后重复下面的步骤更新参数。
（把当前的参数记作 $μnow、σnow、μnow−、σnow−）\mu_{\mathrm{now}}、\sigma_{\mathrm{now}}、\mu_{\mathrm{now}}^-、\sigma_{\mathrm{now}}^-）$

1、用优先经验回放，从数组中抽取一个四元组，记作 $s_j,a_j,r_j,s_{j+1})$ 。
2、用标准正态分布生成 $ξ\xi$ ，对噪声 DQN 做正向传播，得到：
$q^j=Q~(sj,aj,ξ;μnow,σnow).\widehat{q}_j=\widetilde{Q}(s_j,a_j,\boldsymbol{\xi};\boldsymbol{\mu}_\mathrm{now},\boldsymbol{\sigma}_\mathrm{now}).$
3、根据噪声 DQN 选出最优动作：
$a~j+1=argmax⁡⁡a∈AQ~(sj+1,a,ξ;μnow,σnow).\tilde{a}_{j+1}=\underset{a\in\mathcal{A}}{\operatorname*{\operatorname*{argmax}}}\widetilde{Q}\left(s_{j+1},a,\boldsymbol{\xi};\boldsymbol{\mu}_{\mathrm{now}},\boldsymbol{\sigma}_{\mathrm{now}}\right).$
4、用标准正态分布生成 $ξ′\xi^{\prime}$ ，根据目标网络计算价值：
$q^j+1−=Q~(sj+1,a~j+1,ξ′;μnow−,σnow−).\hat{q}_{j+1}^-=\widetilde{Q}\left(s_{j+1},\tilde{a}_{j+1},\xi^{\prime};\boldsymbol{\mu}_{\mathrm{now}}^-,\boldsymbol{\sigma}_{\mathrm{now}}^-\right).$
5、计算 TD 目标和 TD 误差：

$y^j−=rj+γ⋅q^j+1− 和 δj=q^j−y^j−.\widehat{y}_j^-=r_j+\gamma\cdot\widehat{q}_{j+1}^-\quad\text{ 和 }\quad\delta_j=\widehat{q}_j-\widehat{y}_j^-.$

6、设 $αμ\alpha_{\mu}$ 和 $ασ\alpha_{\sigma}$ 为学习率。做梯度下降更新噪声 DQN 的参数：
$μnew←μnow−αμ⋅δj⋅∇μQ~(sj,aj,ξ;μnow,σnow)σnew←σnow−ασ⋅δj⋅∇σQ~(sj∣,aj,ξ;μnow,σnow).\boldsymbol{\mu}_{\mathrm{new}}\quad\leftarrow\quad\boldsymbol{\mu}_{\mathrm{now}}-\alpha_{\mu}\cdot\delta_{j}\cdot\nabla_{\boldsymbol{\mu}}\widetilde{Q}\left(s_{j},a_{j},\boldsymbol{\xi};\boldsymbol{\mu}_{\mathrm{now}},\boldsymbol{\sigma}_{\mathrm{now}}\right) \\ \\ \boldsymbol{\sigma}_{\mathrm{new}}\quad\leftarrow\quad\boldsymbol{\sigma}_{\mathrm{now}}-\alpha_{\sigma}\cdot\delta_{j}\cdot\nabla_{\boldsymbol{\sigma}}\widetilde{Q}\left(s_{j}|,a_{j},\boldsymbol{\xi};\boldsymbol{\mu}_{\mathrm{now}},\boldsymbol{\sigma}_{\mathrm{now}}\right).$
7、设 $τ∈(0,1)\tau\in(0,1)$ 是需要手动调的超参数。做加权平均更新目标网络的参数：

$μnew−←τ⋅μnew+(1−τ)⋅μnow−,σnew−←τ⋅σnew+(1−τ)⋅σnow−.\begin{array} {rcl}\boldsymbol{\mu}_{\mathrm{new}}^{-} & \leftarrow & \tau\cdot\boldsymbol{\mu}_{\mathrm{new}}+ & \begin{pmatrix} 1-\tau \end{pmatrix}\cdot\boldsymbol{\mu}_{\mathrm{now}}^{-}, \\ \\ \boldsymbol{\sigma}_{\mathrm{new}}^{-} & \leftarrow & \tau\cdot\boldsymbol{\sigma}_{\mathrm{new}}+ & \begin{pmatrix} 1-\tau \end{pmatrix}\cdot\boldsymbol{\sigma}_{\mathrm{now}}^{-}. \end{array}$

一时半会可能消化不了，建议收藏！多次咀嚼消化。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git