NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

📄 arXiv: 2605.06317v1 📥 PDF

作者: Dijia Zhan, Jinyi Li, Chenxi Zheng, Shaoyu Huang, Yong Li, Jie Tang, Xuemiao Xu

分类: cs.CV, cs.AI

发布日期: 2026-05-07

备注: 10 pages, 7 figures


💡 一句话要点

NavOne:基于顶视图地图的视觉-语言导航单步全局规划方法

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 全局规划 顶视图地图 多模态融合 机器人导航

📋 核心要点

  1. 传统VLN方法依赖逐步导航,易累积误差且效率低,限制了全局规划能力。
  2. NavOne将VLN重构为顶视图地图上的单步全局路径规划,提升导航效率。
  3. 实验表明,NavOne在R2R-TopDown数据集上达到SOTA,规划速度显著提升。

📝 摘要(中文)

现有的视觉-语言导航(VLN)方法通常采用以自我为中心的、逐步推进的模式,这容易导致误差累积并限制效率。虽然最近的方法试图利用预先构建的环境地图,但它们通常依赖于增量更新记忆图或对离散路径提议进行评分,这限制了连续空间推理并产生离散瓶颈。我们提出了顶视图VLN(TD-VLN),将导航重新定义为在预先构建的顶视图地图上的单步全局路径规划问题,并由我们新构建的R2R-TopDown数据集支持。为了解决这个问题,我们引入了NavOne,一个统一的框架,它在单个端到端前向传递中直接预测多模态地图上的密集路径概率。NavOne具有用于联合多模态地图表示的顶视图地图融合器,并扩展了注意力残差以进行空间感知深度混合。在R2R-TopDown上的大量实验表明,NavOne在基于地图的VLN方法中实现了最先进的性能,规划阶段的速度比现有的基于地图的基线快8倍,比以自我为中心的方法快80倍,从而实现了高效的全局导航。

🔬 方法详解

问题定义:现有视觉-语言导航方法主要采用自中心视角,逐步决策,导致误差累积,效率低下。即使利用预构建地图的方法,也依赖增量式更新或离散路径选择,限制了连续空间推理能力,形成性能瓶颈。

核心思路:NavOne的核心在于将视觉-语言导航问题转化为在顶视图地图上的单步全局路径规划问题。通过直接预测多模态地图上的密集路径概率,避免了逐步决策带来的误差累积,并实现了更高效的全局导航。

技术框架:NavOne框架主要包含两个核心模块:顶视图地图融合器(Top-Down Map Fuser)和空间感知深度混合模块。顶视图地图融合器负责整合多模态地图信息,生成统一的地图表示。空间感知深度混合模块则通过扩展注意力残差机制,实现对深度信息的空间感知融合。整个框架以端到端的方式进行训练,直接预测最终的导航路径。

关键创新:NavOne的关键创新在于其单步全局规划的范式。与传统的逐步决策方法不同,NavOne直接预测整个导航路径的概率分布,从而避免了误差累积,提高了导航效率。此外,顶视图地图融合器和空间感知深度混合模块也为多模态地图信息的有效利用提供了新的思路。

关键设计:NavOne的关键设计包括:1) 使用注意力机制融合视觉、语言和地图信息;2) 引入残差连接,缓解深度网络训练中的梯度消失问题;3) 设计损失函数,鼓励模型预测准确的导航路径;4) R2R-TopDown数据集的构建,为顶视图VLN研究提供了数据支持。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NavOne在R2R-TopDown数据集上取得了显著的性能提升,超越了现有的基于地图的VLN方法。实验结果表明,NavOne的规划阶段速度比现有基于地图的基线快8倍,比以自我为中心的方法快80倍,实现了高效的全局导航。这些结果验证了NavOne在单步全局规划方面的优势。

🎯 应用场景

NavOne具有广泛的应用前景,可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在机器人导航中,NavOne可以帮助机器人更高效、准确地完成导航任务。在自动驾驶中,NavOne可以用于路径规划和决策。在虚拟现实中,NavOne可以为用户提供更自然的导航体验。该研究的未来影响在于推动全局规划在视觉-语言导航中的应用,提升导航系统的智能化水平。

📄 摘要(原文)

Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumulation and limits efficiency. While recent approaches attempt to leverage pre-built environment maps, they often rely on incrementally updating memory graphs or scoring discrete path proposals, which restricts continuous spatial reasoning and creates discrete bottlenecks. We propose Top-Down VLN (TD-VLN), reformulating navigation as a one-step global path planning problem on pre-built top-down maps, supported by our newly constructed R2R-TopDown dataset. To solve this, we introduce NavOne, a unified framework that directly predicts dense path probabilities over multi-modal maps in a single end-to-end forward pass. NavOne features a Top-Down Map Fuser for joint multi-modal map representation, and extends Attention Residuals for spatial-aware depth mixing. Extensive experiments on R2R-TopDown show that NavOne achieves state-of-the-art performance among map-based VLN methods, with a planning-stage speedup of 8x over existing map-based baselines and 80x over egocentric methods, enabling highly efficient global navigation.