强化学习中的数据增强:一项突破性进展

本文来自加州大学伯克利分校和纽约大学的 Michael Laskin、Kimin Li 等人。文章提出了一种将数据增强应用于强化学习的全新方法,并宣称其效果显著,甚至超越了近五年来强化学习领域的大部分研究成果。

文章首先回顾了强化学习的基本概念:一个智能体在一个环境中,通过反复与环境交互来学习解决优化问题。以“步行者任务”为例,智能体需要通过反复尝试,学习如何站立并行走,最终实现行走更远的目标。

接着,文章介绍了数据增强在监督学习中的应用。在图像分类任务中,数据增强通过对图像进行一些轻微的修改,例如遮挡部分区域、随机裁剪、颜色抖动等,来增加训练数据的多样性,从而提高模型的鲁棒性。

文章的核心内容在于将数据增强应用于强化学习。作者发现,在强化学习的输入数据中进行数据增强,能够显著提升学习效率。他们认为,这种简单的方法带来的收益甚至超过了近五年来强化学习领域的大部分研究成果。

文章强调,数据增强在监督学习中是一个通用的技巧,而将其应用于强化学习也取得了显著效果。作者将数据增强比喻为一个“插件”,将其插入到强化学习的流程中,便能够显著提升学习效果。

总而言之,该研究提出了一种将数据增强应用于强化学习的全新方法,并取得了令人瞩目的成果。这项研究有望成为强化学习领域的重要突破,为未来的研究方向指明了新的道路。

这个简单技巧可以让一个普通的强化学习算法达到最先进水平。是什么呢?只需在将训练数据馈送到学习器之前对其进行增强!这可以插入到任何强化学习流程中,并承诺在各个方面都能带来巨大的改进。论文:https://arxiv.org/abs/2004.14990代码:https://www.github.com/MishaLaskin/rad摘要:从视觉观察中学习是强化学习 (RL) 中一个基本但具有挑战性的问题。尽管算法进步与卷积神经网络相结合已被证明是成功的秘诀,但当前方法在两个方面仍然存在不足:(a) 学习的样本效率和 (b) 对新环境的泛化。为此,我们提出了 RAD:增强数据强化学习,这是一个简单的即插即用模块,可以增强任何 RL 算法。我们表明,诸如随机裁剪、颜色抖动、补丁剪切和随机卷积等数据增强可以使简单的 RL 算法在数据效率、泛化和挂钟速度方面匹配甚至超越常见基准中的复杂最先进方法。我们发现,仅数据多样性就可以使代理专注于来自高维观测的有意义信息,而无需对强化学习方法进行任何更改。在 DeepMind 控制套件中,我们展示了 RAD 在 15 个环境中的数据效率和性能方面处于最先进水平。我们进一步证明,RAD 可以显着提高多个 OpenAI ProcGen 基准的测试时间泛化。最后,我们定制的数据增强模块与竞争的 RL 技术相比,能够实现更快的挂钟速度。我们的 RAD 模块和训练代码可在以下网址获得。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐