研究强化学习,模型跑出来后,被运行效果惊呆了

强化学习模型

如上篇文章所述,使用PPO强化学习方法,不同的是在训练过程中加入干扰对抗策略,最终跑出策略模型,控制效果让自己吃了一惊。。。

对参数变化的适应

四旋翼控制对参数变化十分敏感,几乎是微小的参数也会改变控制效果,试验过程中改变一下参数,控制效果依然完美:

  1. 四旋翼质量,控制效果无影响,仅产生位置误差;
  2. 四旋翼臂长,控制效果无影响;
  3. 仿真步长,比较吃惊,控制模型能适应33hz(四旋翼模型极限)以上的任意频率控制,甚至变频控制。。。。;
    控制效果均如下图所示

在这里插入图片描述

对环境迁移的适应

也很意外,所训练的环境没有gui,纯数学仿真,参数十分夸张,臂长1.2m质量1.5kg,转动惯量之类的也很夸张,不细说了。
后面将它迁移到webots上的四旋翼,找的是crazyflie的仿真模型,其参数臂长0.06m左右,质量0.045kg,在对坐标系进行对准之后,居然飞稳了,敢不敢信。。悬停时间9分钟,真的稳了,对所有接入参数均没有修改,传感器数据也是直接接入。。
在这里插入图片描述

对实物飞行的鲁棒性

使用esp32芯片生成神经网络,直接拿传感器数据控制,没有滤波,中间一点处理过程没有。。。它又飞起来了。。没有视觉定位,纯传感器。。

在这里插入图片描述
可惜esp32没有内存卡,只记录起飞2s的数据,为弧度值,只能稳。。。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐