Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting

📄 arXiv: 2509.20499v1 📥 PDF

作者: Boqi Li, Siyuan Li, Weiyi Wang, Anran Li, Zhong Cao, Henry X. Liu

分类: cs.RO, cs.AI

发布日期: 2025-09-24


💡 一句话要点

提出基于抽象障碍地图的航点预测以提升零-shot视觉语言导航性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零-shot学习 多模态模型 航点预测 拓扑图 机器人导航 环境感知

📋 核心要点

  1. 现有的视觉语言导航方法在连续环境中面临挑战,尤其是在理解自然语言指令和规划低级动作时。
  2. 本文提出了一种零-shot框架,结合了基于抽象障碍地图的航点预测器与多模态大型语言模型,以提升导航性能。
  3. 实验结果显示,该方法在R2R-CE和RxR-CE数据集上分别达到了41%和36%的成功率,显著优于现有方法。

📝 摘要(中文)

随着基础模型和机器人技术的快速发展,视觉语言导航(VLN)成为了具备广泛实际应用的关键任务。本文针对连续环境中的VLN问题,提出了一种零-shot框架,结合了简化有效的航点预测器与多模态大型语言模型(MLLM)。该预测器基于抽象障碍地图生成线性可达的航点,并将其纳入动态更新的拓扑图中,记录明确的访问信息。通过将图和访问信息编码到提示中,促进了对空间结构和探索历史的推理,从而增强了探索能力,并为MLLM提供了局部路径规划以进行错误修正。在R2R-CE和RxR-CE上的大量实验表明,该方法在零-shot性能上达到了最先进水平,成功率分别为41%和36%,超越了之前的最先进方法。

🔬 方法详解

问题定义:本文旨在解决在连续环境中进行视觉语言导航时,现有方法在理解指令和环境感知方面的不足,尤其是在缺乏训练数据的情况下。

核心思路:提出了一种零-shot框架,通过结合航点预测器与多模态大型语言模型,利用抽象障碍地图生成可达航点,从而提升导航的准确性和效率。

技术框架:整体架构包括航点预测模块、拓扑图构建模块和多模态语言模型模块。航点预测模块生成航点,拓扑图模块记录访问信息,最后将这些信息传递给语言模型进行路径规划和错误修正。

关键创新:最重要的创新在于引入了抽象障碍地图和动态更新的拓扑图,允许模型在推理时考虑空间结构和历史探索信息,这在现有方法中是未曾实现的。

关键设计:在设计中,航点预测器的参数设置经过精细调整,损失函数采用了结合空间距离和访问记录的复合损失,网络结构则采用了适应性编码机制以提升多模态信息的融合效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在R2R-CE和RxR-CE数据集上分别取得了41%和36%的成功率,显著超过了之前的最先进方法,展示了在零-shot设置下的优越性能,验证了方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人导航、自动驾驶、虚拟现实等场景,能够有效提升机器人在复杂环境中的自主决策能力。未来,该方法有望在更广泛的任务中应用,推动智能体在动态环境中的适应性和智能化水平。

📄 摘要(原文)

With the rapid progress of foundation models and robotics, vision-language navigation (VLN) has emerged as a key task for embodied agents with broad practical applications. We address VLN in continuous environments, a particularly challenging setting where an agent must jointly interpret natural language instructions, perceive its surroundings, and plan low-level actions. We propose a zero-shot framework that integrates a simplified yet effective waypoint predictor with a multimodal large language model (MLLM). The predictor operates on an abstract obstacle map, producing linearly reachable waypoints, which are incorporated into a dynamically updated topological graph with explicit visitation records. The graph and visitation information are encoded into the prompt, enabling reasoning over both spatial structure and exploration history to encourage exploration and equip MLLM with local path planning for error correction. Extensive experiments on R2R-CE and RxR-CE show that our method achieves state-of-the-art zero-shot performance, with success rates of 41% and 36%, respectively, outperforming prior state-of-the-art methods.