
惊呆了的强化学习四旋翼控制
研究强化学习,模型跑出来后,被运行效果惊呆了。
·
研究强化学习,模型跑出来后,被运行效果惊呆了
强化学习模型
如上篇文章所述,使用PPO强化学习方法,不同的是在训练过程中加入干扰对抗策略,最终跑出策略模型,控制效果让自己吃了一惊。。。
对参数变化的适应
四旋翼控制对参数变化十分敏感,几乎是微小的参数也会改变控制效果,试验过程中改变一下参数,控制效果依然完美:
- 四旋翼质量,控制效果无影响,仅产生位置误差;
- 四旋翼臂长,控制效果无影响;
- 仿真步长,比较吃惊,控制模型能适应33hz(四旋翼模型极限)以上的任意频率控制,甚至变频控制。。。。;
控制效果均如下图所示
对环境迁移的适应
也很意外,所训练的环境没有gui,纯数学仿真,参数十分夸张,臂长1.2m质量1.5kg,转动惯量之类的也很夸张,不细说了。
后面将它迁移到webots上的四旋翼,找的是crazyflie的仿真模型,其参数臂长0.06m左右,质量0.045kg,在对坐标系进行对准之后,居然飞稳了,敢不敢信。。悬停时间9分钟,真的稳了,对所有接入参数均没有修改,传感器数据也是直接接入。。
对实物飞行的鲁棒性
使用esp32芯片生成神经网络,直接拿传感器数据控制,没有滤波,中间一点处理过程没有。。。它又飞起来了。。没有视觉定位,纯传感器。。
可惜esp32没有内存卡,只记录起飞2s的数据,为弧度值,只能稳。。。
更多推荐
所有评论(0)