卡尔曼滤波“开挂”!强化学习让目标跟踪精度暴增50%,吊打传统算法!
论文使用近端策略优化(PPO)算法在具有连续状态和动作空间的环境中训练DRL代理,并在不同数量的障碍物和不同程度的噪声下随机化环境,以捕捉真实传感器测量的效果。在PyBullet物理模拟器中进行了广泛的训练和测试后,无需进一步修改,即可将模拟中训练的策略直接部署到真实世界环境中,用于航点导航和避障。使用PPO算法在存在测量噪声的不同水平下训练DRL代理,比较了使用完美测量训练的代理与其他在不同水平
近年来,卡尔曼滤波与强化学习的结合在多个领域取得了显著进展。例如,在无人机竞速中,Swift系统通过融合视觉-惯性估计器和门检测器的卡尔曼滤波估计,显著提升了机器人状态估计的准确性,使其在真实世界比赛中与人类世界冠军相媲美。在云计算领域,基于数字孪生架构的强化学习框架结合卡尔曼滤波器,优化了资源调度,提高了系统的鲁棒性和效率。
此外,KalMamba通过在潜在空间中使用卡尔曼滤波和平滑操作,显著提高了在高不确定性环境下的性能。这些创新成果不仅在理论研究中取得了突破,还在实际应用中展现了显著的性能提升。我整理了10篇【卡尔曼滤波+强化学习】的相关论文,全部论文PDF版,工中号【沃的顶会】回复“强化卡尔曼”即可领取。
KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty
文章解析
KalMamba结合了概率状态空间模型(SSMS)和确定性SSMs的优势,通过在潜在空间中使用线性高斯SSM和Kalman滤波及平滑技术,实现了高效且可扩展的概率表示学习。
实验表明,KalMamba在计算效率上显著优于现有方法,尤其在处理长序列任务时表现优异。
创新点
1.提出了一种结合Kalman滤波和平滑技术与Mamba骨干网络的新架构KalMamba。
2.实现了时间并行的信念状态计算,显著提高了计算效率。
3.通过紧变分下界和平滑推断,确保了模型在高不确定性下的鲁棒性和准确性。
研究方法
1.使用Mamba骨干网络学习潜在空间中的线性动力学模型。
2.利用并行关联扫描技术实现高效的Kalman滤波和平滑操作。
3.通过软策略迭代器(SAC)使用滤波后的信念状态进行控制。
研究结论
1.KalMamba在多个控制任务中表现出与最先进SSM方法相当的性能,同时训练速度更快,对长序列任务具有更好的扩展性。
2.该方法为需要在不确定性下形成准确信念状态的长序列应用提供了潜在解决方案。

Sim-to-Real Deep Reinforcement Learning based Obstacle Avoidance for UAVs under Measurement Uncertainty
文章解析
该论文研究了测量不确定性对基于深度强化学习(DRL)的无人机(UAV)航点导航和避障性能的影响。测量不确定性主要来源于用于定位和检测障碍物的传感器噪声。研究假设测量噪声遵循具有未知非零均值和方差的高斯概率分布。
论文使用近端策略优化(PPO)算法在具有连续状态和动作空间的环境中训练DRL代理,并在不同数量的障碍物和不同程度的噪声下随机化环境,以捕捉真实传感器测量的效果。
创新点
首次系统性分析:这是首次系统性分析噪声传感器输入对基于DRL的UAV航点导航和避障的影响。
测量噪声建模:测量噪声被建模为从高斯分布中采样的随机变量,训练和评估时均考虑了具有不同未知均值和方差水平的测量噪声。
噪声注入提升性能:研究发现,在评估过程中人为注入具有精心选择的方差的噪声,可以改善DRL代理在测量误差存在未知偏差时的性能。
从模拟到现实的迁移:在PyBullet物理模拟器中进行了广泛的训练和测试后,无需进一步修改,即可将模拟中训练的策略直接部署到真实世界环境中,用于航点导航和避障。
研究方法
环境模拟:使用PyBullet物理模拟器构建环境,训练DRL代理控制UAV避开障碍物并到达目标位置,同时考虑不同类型的高斯噪声和不同数量的障碍物。
DRL代理训练:使用PPO算法在存在测量噪声的不同水平下训练DRL代理,比较了使用完美测量训练的代理与其他在不同水平测量噪声下训练的代理的性能。
去噪技术:研究了低通滤波器和卡尔曼滤波器等去噪技术在无偏噪声存在时对性能的提升效果。
噪声注入策略:在评估过程中人为注入噪声,以改善在存在未知偏差的测量误差时DRL代理的性能。
研究结论
噪声对性能的影响:研究发现,训练时加入一定水平的测量噪声可以提高DRL代理在避障能力上的表现。
去噪技术的有效性:在无偏噪声存在时,使用低通滤波器或卡尔曼滤波器等去噪技术可以提高DRL代理的性能。
噪声注入的意外优势:在测量误差存在未知偏差时,人为注入方差可以改善DRL代理的性能。
从模拟到现实的迁移能力:在模拟环境中训练的策略可以直接迁移到真实世界环境中,用于航点导航和避障,无需进一步修改。

更多推荐
所有评论(0)