香港大学强化学习驱动连续环境具身导航！VLN-R1：基于强化微调的视觉语言导航

VLN-R1通过整合LVLM和强化学习微调，为连续环境中的视觉语言导航提供了一种有效的解决方案

xml.nudt

1699人浏览 · 2025-07-03 18:53:36

xml.nudt · 2025-07-03 18:53:36 发布

作者：Zhangyang Qi $^{1,2}$ , Zhixiong Zhang $^{2}$ , Yizhou Yu $^{1}$ , Jiaqi Wang $^{2}$ , Hengshuang Zhao $^{1}$
单位： $^{1}$ 香港大学， $^{2}$ 上海AI实验室
论文标题：VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning
论文链接：https://arxiv.org/abs/2506.17221
项目主页：https://vlnr1.github.io/
代码链接：https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1

主要贡献

提出VLN-R1框架：利用大型视觉语言模型（LVLM）处理第一视角视频流，从而实现连续环境中的视觉语言导航。与以往基于离散导航图的方法不同，VLN-R1能够生成连续的导航动作，更接近真实世界中的导航场景。
构建VLN-Ego数据集：为了训练LVLM进行连续导航任务，构建了VLN-Ego数据集。该数据集基于Habitat模拟器生成，包含第一视角视频流以及对应的未来动作预测。这个数据集为LVLM的训练提供了丰富的视觉和语言信息，有助于模型学习如何根据视觉输入和语言指令生成正确的导航动作。
创新训练方法：VLN-R1采用了两阶段的训练方法。首先，通过监督微调（SFT）使模型的动作序列文本预测与专家演示对齐；然后，利用强化微调（RFT）进一步优化模型，特别是引入了基于Group Relative Policy Optimization（GRPO）的训练策略和Time-Decayed Reward（TDR）机制。

研究背景

视觉语言导航的重要性：
- VLN是具身人工智能中的一个核心挑战，它要求智能体能够理解自然语言指令，并在三维环境中进行导航。
- 这项任务不仅需要智能体具备语言理解能力，还需要其能够实时做出决策，以适应不断变化的环境。
现有方法的局限性：
- 以往的研究通常依赖于离散的拓扑图来进行路径规划，这种方法限制了智能体在未见或连续环境中的泛化能力。
- 此外，一些方法需要额外的传感器信息，如深度图和导航图，这在实际应用中可能会受到限制。
- 还有些方法虽然使用了大型语言模型（LLM），但它们仍然受限于预定义的导航图，无法实现真正意义上的具身导航。

研究方法

VLN-Ego数据集构建

数据来源：Habitat模拟器中的Matterport3D场景（90个场景，分训练/验证/测试集）。
标注设计：每条样本包含三部分：
- 指令文本：自然语言导航指令（如"绕过餐桌，左转进入走廊"）。
- 视觉输入：历史帧（Long-Short Memory采样）+当前帧。
- 动作标注：未来6步动作序列（如"A.前进25cm, B.左转30°"）。
采样策略：长短期记忆（Long-Short Memory）平衡近期细节与长期上下文。短期部分采用高密度采样，长期部分采用低密度采样，兼顾局部细节与整体上下文。

监督微调

将导航任务形式化为序列预测问题，在每个时间步输入语言指令 $I$ 、历史帧序列 $H_t$ 、当前观察帧 $v_t$ ，模型预测接下来的动作序列 $A^t:t+n−1\hat{A}_{t:t+n-1}$ 。使用交叉熵损失对预测动作编号与描述进行监督训练：

$L_{SFT} = -\sum_{k=0}^{n-1}\sum_{j=1}^{L_k} \log P(w^*_j|w^*_{1:j-1}, H_t, v_t, I)$

其中 $L_k$ 为第 $k$ 步动作的token数，监督模型联合学习动作类别和动作文本表达。

强化学习微调

在SFT基础上，引入强化学习以提升模型在长时序导航中的稳健性与前瞻性：

GRPO策略优化：通过相对奖励对一组生成结果进行排序，提升高质量策略。
TDR机制设计：奖励函数定义如下：

$R_{nav} = \sum_{k=0}^{n-1} \gamma^k \cdot \mathbb{I}[\alpha_{t+k} = \alpha^*_{t+k}]$

其中 $γk\gamma^k$ 表示对第 $k$ 步动作的衰减因子， $I[⋅]\mathbb{I}[\cdot]$ 为指示函数。该机制优先强化前期正确决策，提升整体导航成功率。

实验与结果

实验设置

模型：Qwen2-VL-2B 与 Qwen2-VL-7B；
数据：SFT使用180万样本，RFT使用20K样本（R2R+RxR）；
评估：在VLN-CE设置下的R2R与RxR任务，使用SR、OS、SPL、NE、TL等指标；
硬件：使用8张A800 GPU，配合Deepspeed ZeRO-3优化器。

实验结果

R2R任务（Val-Unseen）：VLN-R1在无深度图、地图等条件下实现SR=30.2（7B模型），显著超过传统模型；

RxR任务（Val-Unseen）：仅使用10K样本RFT即在RxR上优于完全监督模型，体现出强跨域适应能力；
2B模型经RFT后可达7B模型的SFT性能，说明RFT能有效提升小模型性能。

消融实验

动作空间设计：实验结果表明，预测未来6个动作的设置能够取得最佳性能。仅预测单个动作的设置会导致性能显著下降，因为这种设置无法考虑未来步骤之间的依赖关系。
历史记忆方法：长短期记忆采样策略在帧选择方面表现最佳，能够有效地平衡当前观察与历史上下文。
RFT的超参数：实验还探讨了RFT阶段的超参数设置，包括生成次数和奖励函数。结果表明，8次生成能够使模型达到收敛，并且TDR机制在奖励函数中表现最为有效。

结论与未来工作

结论：
- VLN-R1通过整合LVLM和强化学习微调，为连续环境中的视觉语言导航提供了一种有效的解决方案。
- 该方法在模拟环境中取得了SOTA性能，并且在跨领域适应方面表现出色。
- 此外，RFT能够使小型模型匹配大型模型的性能，这对于资源有限的实际应用具有重要意义。
未来工作：
- 尽管VLN-R1在模拟环境中取得了显著成果，但其在现实世界中的泛化能力仍有待验证。
- 未来的工作可以探索在更复杂的现实环境中进行评估，以及扩展动作空间以实现更精细的导航控制。
- 此外，还可以研究如何将该方法应用于其他具身AI任务，如具身问答（EQA）等，以进一步拓展LVLM在具身AI领域的应用。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git