强化学习TD3,即Twin Delay DDPG,依托确定性策略在连续动作空间中进行处理和学习。

这里基于网络资料探索和学习TD3,包括TD3的学习机制,以及一些前沿探索。

1 什么是TD3

TD3算法通过精巧的设计,将探索与学习两个过程有机结合。

在探索时依赖噪声驱动,在学习时通过三项关键机制,即双Q网络、延迟更新、目标策略平滑来确保稳定高效地利用探索收集的数据。

为了清晰地展现其核心思想,下表对比了它在不同阶段的探索策略:

1)训练阶段

核心探索机制是动作噪声扰动,具体为在Actor网络输出的确定性动作上,添加随机噪声(如高斯噪声)。 从而在动作空间中进行广泛的试探,收集多样的经验数据,避免策略过早陷入局部最优。 

2)测试/应用阶段

此时无噪声,具体为利用策略,移除所有探索噪声,直接使用Actor网络输出的确定性动作。 从而充分发挥已学到的知识,稳定、精准地执行任务,最大化累积奖励。 

2 TD3学习机制

TD3的学习过程之所以高效,是因为它针对前身DDPG算法的不足,引入了三项核心改进。

这三项机制共同作用,保障了从探索数据中学习的稳定性和策略质量。

3.1 截断双Q学习

TD3通过截断双Q学习,即Clipped Double Q-Learning, 解决价值高估问题。

因为DDPG算法容易过高估计Q值,这种误差累积会导致策略崩溃。

TD3同时学习两个Critic网络(Q`1和Q`2),计算目标Q值,取两个网络输出的较小值作为更新目标。

公式如下:

y = r +\gamma * min(Q_1'(s', a'), Q_2'(s', a'))

这种保守的估计方式,有效抑制了过估计问题,为策略学习提供了更可靠的价值信号。

3.2 延迟的策略更新

TD3通过延迟的策略更新,即Delayed Policy Updates,来减少震荡。

在训练过程的开始阶段,Critic价值估计还不准确,此时如果频繁更新Actor,容易导致策略震荡甚至发散。

TD3的解法是降低Actor网络的更新频率,通常设置为每更新2-3次Critic,才更新1次Actor。这确保了Actor总是在相对稳定的价值函数指导下进行优化,使训练过程更加平滑。

2.3 目标策略平滑正则化

TD3进一步通过目标策略平滑正则化,即Target Policy Smoothing,来提升泛化能力。

 在训练阶段,确定性策略容易过拟合到Q值的尖锐峰值,导致策略对动作误差非常敏感。

TD3的解法是在计算目标Q值时,对目标动作添加一个小范围的噪声,例如,均值为0,标准差为0.2的截断噪声。这相当于要求Q值估计在一个小的动作邻域内都是平滑的,使得策略在面对相似状态时,输出动作更加鲁棒,泛化能力更强。这本身也构成了一种学习层面的探索,迫使模型理解动作空间的结构。

3 超越固定噪声

TD3的设计思路很清晰:通过稳健的学习机制(双Q、延迟更新)来最大化每一次探索的价值,同时通过策略平滑来提升所学策略的鲁棒性和泛化能力。

除了上述核心机制,也在不断探索更高级的探索策略来进一步提升TD3的性能。

1)动态混合噪声

结合高斯噪声和Ornstein-Uhlenbeck(OU) 噪声,高斯噪声提供随机探索,OU噪声提供时间上相关的探索,使动作变化更平滑,并根据训练阶段动态调整两者比例,以更好地平衡探索的广度与稳定性。

2)内在探索奖励

不依赖外部噪声,而是通过算法本身激励探索。例如,EECL模块会记录历史状态,当智能体访问到新状态时,给予额外的好奇心奖励,引导其更主动地探索未知区域。

3)混沌动力学驱动

一种更前沿的方向,利用神经网络内部的混沌动态作为探索的源泉,试图让智能体像生物一样,拥有更自发、更灵活的探索行为。

reference

---

强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数

https://cloud.tencent.cn/developer/article/2338287

Optimizing TD3 for 7-DOF Robotic Arm Grasping: Overcoming Suboptimality with Exploration-Enhanced Contrastive Learning

https://arxiv.org/abs/2408.14009

NM-TD3: A Hybrid Noise-Driven TD3 Algorithm With Long-Term Reward Propagation for Mobile Robot Path Planning

https://ieeexplore.ieee.org/document/11135450

Chaos-based reinforcement learning with TD3

https://www.sciencedirect.com/science/article/abs/pii/S0893608025010834?via%3Dihub

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐