强化学习的算法创新方案
以ALFWorld、BabyAI等环境为例,先由LLM给出初步行动提示,再由强化学习精细调整动作序列,相较于纯强化学习,收敛速度更快,策略也更为平滑。前两年,世界模型(World Model)概念备受关注,今年许多研究聚焦于基于扩散模型的世界模型(Diffusion-based World Model),特别是利用扩散模型进行环境状态的生成预测,这在DreamerV4上已有初步成果。不再是单纯依靠
1.强化学习2025趋势观察
近期研读了一些CVPR和ICLR的文章,发现强化学习领域虽不像前几年那般竞争激烈,但也并非无人问津,只是研究风格发生了转变。不再是单纯依靠打分获取奖励的范式,而是更多地向组合方向探索,例如强化学习结合大模型、图网络、世界模型等,融合速度极快。就个人观察而言,有几个方向颇具潜力。
2.语言大模型与强化学习融合:提升行动决策能力
起初,我对语言大模型(LLM)在决策方面的应用并不看好,认为其仅基于token预测做决策能力有限。然而在CVPR上看到一项工作,利用LLM作为策略生成器,再通过强化学习优化动作解码器(action decoder),感觉成效显著。以ALFWorld、BabyAI等环境为例,先由LLM给出初步行动提示,再由强化学习精细调整动作序列,相较于纯强化学习,收敛速度更快,策略也更为平滑。
3.多模态输入强化学习任务:信息丰富且结果稳定
如今,强化学习不再仅依赖状态矩阵,开始融合图像、语言甚至点云等多模态信息。例如,近期看到一项三模态融合(视觉 + 语言 + 传感器)的研究,在Habitat-Matterport 3D环境中进行导航,虽然信息量大幅增加,但效果十分稳定。相较于以往纯视觉模型在拐角处易撞墙的情况,三模态融合后模型的鲁棒性显著提高。
4.分层强化学习回归:动作更具人类特性
分层强化学习(Hierarchical RL)并非新概念,几年前就已出现,但近期重新受到关注,且研究更为精细。其采用分层策略结构,上层负责控制意图,下层执行具体动作。近期提出的HiPPO-RL方法(在ICLR 2025上有相关介绍),主打细粒度控制。观察其在Meta-World上的运行效果,动作序列不再像传统强化学习那样波动剧烈,更像是模仿人类意图进行规划。
5.世界模型与强化学习结合:提升模型预测与训练稳定性
这是我个人最为感兴趣的方向。前两年,世界模型(World Model)概念备受关注,今年许多研究聚焦于基于扩散模型的世界模型(Diffusion-based World Model),特别是利用扩散模型进行环境状态的生成预测,这在DreamerV4上已有初步成果。甚至有人将Mamba结构引入其中,构建长序列建模的状态生成模块。
6.离线强化学习走向实用:突破实验室限制
起初,我对离线强化学习(Offline RL)并不看好,认为其过于理想化。但近期看到一些方法,以行为克隆结合策略对比为主,在D4RL和RealRobot等数据集上展现出一定效果。尤其是引入模型不确定性评估后,离线强化学习的稳定性明显提升,不再像以往那样容易训练失败。
📚另外,我整理了十篇关于强化学习的最新论文及代码,方便大家参考。

更多推荐
所有评论(0)