大规模分布式策略梯度强化学习,附理论保证!摘要:本研究旨在使用单个强化学习智能体和一组参数来解决大量任务。一个关键挑战是处理增加的数据量和扩展的训练时间。我们开发了一种新的分布式智能体IMPALA(重要性加权演员-学习者架构),它不仅在单机训练中更有效地利用资源,而且可以扩展到数千台机器,而不会牺牲数据效率或资源利用率。通过将解耦的行动和学习与一种称为V-trace的新型离策略校正方法相结合,我们实现了高吞吐量下的稳定学习。我们在DMLab-30(来自DeepMind Lab环境(Beattie等人,2016年)的30个任务集)和Atari-57(Arcade Learning Environment(Bellemare等人,2013a)中所有可用的Atari游戏)上展示了IMPALA在多任务强化学习中的有效性。我们的结果表明,IMPALA能够以更少的数据取得比以前智能体更好的性能,并且由于其多任务方法,在任务之间表现出积极的迁移。作者:Lasse Espeholt、Hubert Soyer、Remi Munos、Karen Simonyan、Volodymir Mnih、Tom Ward、Yotam Doron、Vlad Firoiu、Tim Harley、Iain Dunning、Shane Legg、Koray Kavukcuogluhttps://arxiv.org/abs/1802.01561https://github.com/deepmind/scalable_agent

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐