SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

📄 arXiv: 2503.10069v2 📥 PDF

作者: Xiangyu Shi, Zerui Li, Wenqi Lyu, Jiatong Xia, Feras Dayoub, Yanyuan Qiao, Qi Wu

分类: cs.RO, cs.CV

发布日期: 2025-03-13 (更新: 2025-06-17)

备注: Accepted by IROS 2025. Project website: https://sxyxs.github.io/smartway/


💡 一句话要点

SmartWay:增强航点预测与回溯的零样本视觉语言导航方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 航点预测 多模态大语言模型 历史感知 回溯机制 机器人导航

📋 核心要点

  1. 现有VLN-CE方法在空间感知和历史推理方面存在不足,限制了其在复杂环境中的导航能力。
  2. SmartWay通过增强航点预测器的空间感知能力,并为导航器引入历史感知和回溯机制,提升导航性能。
  3. 实验表明,SmartWay在零样本VLN-CE任务上取得了SOTA性能,并在真实机器人平台上验证了其有效性。

📝 摘要(中文)

本文提出了一种零样本视觉语言导航(VLN)框架,用于在连续环境中导航。现有VLN框架依赖于两阶段方法:航点预测器生成航点,导航器执行移动。然而,现有航点预测器缺乏空间感知能力,导航器缺乏历史推理和回溯能力,限制了适应性。本文提出的框架集成了增强的航点预测器和基于多模态大型语言模型(MLLM)的导航器。预测器采用更强的视觉编码器、掩码交叉注意力融合和占用感知损失,以提高航点质量。导航器结合了历史感知推理和具有回溯功能的自适应路径规划,提高了鲁棒性。在R2R-CE和MP3D基准测试上的实验表明,该方法在零样本设置下实现了最先进(SOTA)的性能,并展示了与完全监督方法相比具有竞争力的结果。在Turtlebot 4上的真实世界验证进一步突出了其适应性。

🔬 方法详解

问题定义:现有视觉语言导航(VLN)方法,特别是连续环境下的VLN(VLN-CE),依赖于两阶段策略:首先预测一系列航点,然后控制智能体依次到达这些航点。然而,现有的航点预测器通常缺乏足够的空间感知能力,导致预测的航点质量不高。同时,导航器缺乏历史信息推理能力,无法有效处理导航过程中遇到的意外情况,例如死胡同或错误转向,缺乏回溯机制。

核心思路:SmartWay的核心思路是通过增强航点预测器的空间感知能力和导航器的历史推理与回溯能力来提升整体导航性能。具体来说,通过更强的视觉编码器、掩码交叉注意力融合以及占用感知损失来提升航点预测的准确性。同时,利用多模态大型语言模型(MLLM)构建导航器,使其具备历史感知推理和自适应路径规划能力,并在必要时进行回溯。

技术框架:SmartWay框架主要包含两个模块:增强的航点预测器和基于MLLM的导航器。航点预测器负责根据视觉输入和语言指令预测一系列航点。导航器接收航点预测器的输出以及历史导航信息,利用MLLM进行推理,生成导航指令,控制智能体移动。如果导航过程中遇到问题,导航器可以利用回溯机制返回之前的状态,重新规划路径。

关键创新:SmartWay的关键创新在于以下几个方面:1) 增强的航点预测器,通过更强的视觉编码器和占用感知损失,提高了航点预测的准确性。2) 基于MLLM的导航器,具备历史感知推理和自适应路径规划能力,能够更好地处理复杂环境中的导航任务。3) 回溯机制,允许导航器在遇到问题时返回之前的状态,重新规划路径,提高了导航的鲁棒性。

关键设计:在航点预测器中,使用了ResNet等更强的视觉编码器提取视觉特征,并采用掩码交叉注意力融合机制将视觉特征和语言特征进行融合。占用感知损失鼓励预测的航点位于自由空间中,避免碰撞。在导航器中,使用了预训练的MLLM,并针对VLN任务进行了微调。回溯机制通过保存历史状态信息来实现,当导航器判断当前状态不佳时,可以返回之前的状态,重新规划路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SmartWay在R2R-CE和MP3D基准测试中取得了显著的性能提升,在零样本设置下达到了SOTA水平,甚至可以与完全监督的方法相媲美。此外,在Turtlebot 4机器人上的真实实验验证了SmartWay的有效性和适应性,证明了其在实际应用中的潜力。

🎯 应用场景

SmartWay技术可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在家庭服务机器人中,该技术可以帮助机器人理解用户的自然语言指令,并在复杂的家居环境中自主导航。在自动驾驶领域,该技术可以提高车辆在复杂城市环境中的导航能力和安全性。在虚拟现实游戏中,该技术可以为玩家提供更自然、更沉浸式的导航体验。

📄 摘要(原文)

Vision-and-Language Navigation (VLN) in continuous environments requires agents to interpret natural language instructions while navigating unconstrained 3D spaces. Existing VLN-CE frameworks rely on a two-stage approach: a waypoint predictor to generate waypoints and a navigator to execute movements. However, current waypoint predictors struggle with spatial awareness, while navigators lack historical reasoning and backtracking capabilities, limiting adaptability. We propose a zero-shot VLN-CE framework integrating an enhanced waypoint predictor with a Multi-modal Large Language Model (MLLM)-based navigator. Our predictor employs a stronger vision encoder, masked cross-attention fusion, and an occupancy-aware loss for better waypoint quality. The navigator incorporates history-aware reasoning and adaptive path planning with backtracking, improving robustness. Experiments on R2R-CE and MP3D benchmarks show our method achieves state-of-the-art (SOTA) performance in zero-shot settings, demonstrating competitive results compared to fully supervised methods. Real-world validation on Turtlebot 4 further highlights its adaptability.