IMPALA：基于重要性加权演员-学习者架构的可扩展分布式深度强化学习

YannicKilcher

188人浏览 · 2024-08-09 12:46:50

YannicKilcher · 2024-08-09 12:46:50 发布

大规模分布式策略梯度强化学习，附理论保证！摘要：本研究旨在使用单个强化学习智能体和一组参数来解决大量任务。一个关键挑战是处理增加的数据量和扩展的训练时间。我们开发了一种新的分布式智能体IMPALA（重要性加权演员-学习者架构），它不仅在单机训练中更有效地利用资源，而且可以扩展到数千台机器，而不会牺牲数据效率或资源利用率。通过将解耦的行动和学习与一种称为V-trace的新型离策略校正方法相结合，我们实现了高吞吐量下的稳定学习。我们在DMLab-30（来自DeepMind Lab环境（Beattie等人，2016年）的30个任务集）和Atari-57（Arcade Learning Environment（Bellemare等人，2013a）中所有可用的Atari游戏）上展示了IMPALA在多任务强化学习中的有效性。我们的结果表明，IMPALA能够以更少的数据取得比以前智能体更好的性能，并且由于其多任务方法，在任务之间表现出积极的迁移。作者：Lasse Espeholt、Hubert Soyer、Remi Munos、Karen Simonyan、Volodymir Mnih、Tom Ward、Yotam Doron、Vlad Firoiu、Tim Harley、Iain Dunning、Shane Legg、Koray Kavukcuogluhttps://arxiv.org/abs/1802.01561https://github.com/deepmind/scalable_agent

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手