惊呆了的强化学习四旋翼控制

研究强化学习，模型跑出来后，被运行效果惊呆了。

tiandajiang

469人浏览 · 2023-04-15 15:27:15

tiandajiang · 2023-04-15 15:27:15 发布

研究强化学习，模型跑出来后，被运行效果惊呆了

强化学习模型

如上篇文章所述，使用PPO强化学习方法，不同的是在训练过程中加入干扰对抗策略，最终跑出策略模型，控制效果让自己吃了一惊。。。

对参数变化的适应

四旋翼控制对参数变化十分敏感，几乎是微小的参数也会改变控制效果，试验过程中改变一下参数，控制效果依然完美：

四旋翼质量，控制效果无影响，仅产生位置误差；
四旋翼臂长，控制效果无影响；
仿真步长，比较吃惊，控制模型能适应33hz（四旋翼模型极限）以上的任意频率控制，甚至变频控制。。。。；
控制效果均如下图所示

在这里插入图片描述

对环境迁移的适应

也很意外，所训练的环境没有gui，纯数学仿真，参数十分夸张，臂长1.2m质量1.5kg，转动惯量之类的也很夸张，不细说了。
后面将它迁移到webots上的四旋翼，找的是crazyflie的仿真模型，其参数臂长0.06m左右，质量0.045kg，在对坐标系进行对准之后，居然飞稳了，敢不敢信。。悬停时间9分钟，真的稳了，对所有接入参数均没有修改，传感器数据也是直接接入。。
在这里插入图片描述