四足机器人(Quadruped)运动控制具有高维非线性、接触不确定与地形多样等挑战。深度强化学习(DRL) 能端到端学习复杂策略,但在高维连续控制中往往需要大量数据和良好的先验。中枢模式发生器(CPG) 提供 低维、节律化的运动先验,将两者结合可显著提升样本效率与稳定性。本文系统阐释SAC×CPG的理论与工程实践,并给出关键公式与推导。

1. 强化学习与最大熵框架

2. 中枢模式发生器(CPG)与Hopf振荡器

2.1 基本方程

常用的 Hopf 振荡器 模型:

3. SAC × CPG 的总体架构

在本系统中,SAC 的 Actor 并不直接输出 12 个关节扭矩,而是输出 低维 CPG 参数。然后通过 Hopf 振荡器 更新得到足端轨迹,再经 IK/PD 生成关节扭矩。整个系统形成一个稳定的闭环。

  • 高层决策层:SAC算法学习环境状态到CPG参数调制的映射策略
  • 底层执行层:CPG网络生成节律性运动模式
  • 运动控制层:将CPG输出转换为具体的关节控制命令

3.1 策略到 CPG 参数的映射

点击链接【四足机器人】最大熵强化学习与CPG耦合:四足机器人步态控制的原理与实现阅读原文

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐