NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps
作者: Dijia Zhan, Jinyi Li, Chenxi Zheng, Shaoyu Huang, Yong Li, Jie Tang, Xuemiao Xu
分类: cs.CV, cs.AI
发布日期: 2026-05-07 (更新: 2026-05-08)
备注: 10 pages, 7 figures
💡 一句话要点
提出NavOne框架:通过自顶向下地图实现视觉语言导航的一步式全局路径规划
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 全局路径规划 多模态融合 自顶向下地图 端到端学习 空间推理
📋 核心要点
- 现有VLN方法依赖逐步决策,存在严重的误差累积问题,且在处理复杂环境时计算效率低下,难以实现长距离的全局最优路径规划。
- 提出TD-VLN范式,将导航转化为预建地图上的一步式全局路径规划,通过端到端模型直接预测密集路径概率,规避了离散化带来的空间推理瓶颈。
- 实验表明NavOne在R2R-TopDown数据集上达到SOTA性能,规划速度较现有地图基线提升8倍,较传统方法提升80倍,显著增强了导航效率。
📝 摘要(中文)
现有的视觉语言导航(VLN)方法多采用以自我为中心的逐步决策范式,这导致了严重的误差累积问题并限制了导航效率。尽管近期研究开始利用预建环境地图,但它们往往依赖于增量式更新记忆图或对离散路径建议进行评分,这限制了连续空间推理能力并造成了离散化瓶颈。本文提出了自顶向下视觉语言导航(TD-VLN),将导航重新定义为在预建自顶向下地图上进行的一步式全局路径规划问题,并构建了配套的R2R-TopDown数据集。为此,我们引入了NavOne框架,该框架通过单次端到端前向传播,直接在多模态地图上预测密集路径概率。NavOne包含用于联合多模态地图表示的Top-Down Map Fuser,并扩展了用于空间感知深度混合的Attention Residuals。在R2R-TopDown上的实验表明,NavOne在基于地图的VLN方法中达到了SOTA水平,规划阶段速度较现有基线提升了8倍,较以自我为中心的方法提升了80倍,实现了高效的全局导航。
🔬 方法详解
问题定义:论文旨在解决传统VLN中“逐步决策”带来的误差累积和计算低效问题。现有方法在处理长路径时,由于缺乏全局视野和连续空间推理,容易在局部决策中迷失,且离散路径建议限制了导航的灵活性。
核心思路:将导航任务从“序列决策”重构为“全局路径规划”。通过利用预建的自顶向下(Top-Down)地图,模型能够获取环境的全局拓扑信息,从而在单次推理中直接生成最优路径,避免了反复的局部交互。
技术框架:NavOne采用统一的端到端架构。输入包括指令文本和多模态地图信息,通过Top-Down Map Fuser模块进行特征融合,随后利用扩展的Attention Residuals机制进行空间感知特征提取,最终输出全局路径的概率分布图。
关键创新:引入了Top-Down Map Fuser,实现了视觉特征与地图空间信息的深度对齐;通过Attention Residuals进行深度混合,有效提升了模型对空间位置的敏感度,实现了从局部观察到全局规划的跨越。
关键设计:模型采用端到端的前向传播策略,直接预测密集路径概率。在损失函数设计上,针对全局路径的连续性进行了优化,确保生成的路径在拓扑上是可行的,同时通过R2R-TopDown数据集提供了高质量的监督信号。
🖼️ 关键图片
📊 实验亮点
NavOne在R2R-TopDown数据集上表现优异,在多项导航指标上超越了现有的基于地图的VLN方法。最显著的优势在于计算效率:其规划阶段速度较现有地图基线提升了8倍,较传统的以自我为中心的导航方法提升了80倍,证明了该方法在实时大规模环境导航中的巨大潜力。
🎯 应用场景
该研究在室内服务机器人、自动巡检机器人及仓储物流自动化领域具有重要应用价值。通过利用预建地图实现高效全局规划,机器人能够更快速、准确地执行复杂指令,特别适用于大型办公楼、医院或仓库等需要长距离导航的复杂室内环境,显著提升了机器人的自主作业能力。
📄 摘要(原文)
Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumulation and limits efficiency. While recent approaches attempt to leverage pre-built environment maps, they often rely on incrementally updating memory graphs or scoring discrete path proposals, which restricts continuous spatial reasoning and creates discrete bottlenecks. We propose Top-Down VLN (TD-VLN), reformulating navigation as a one-step global path planning problem on pre-built top-down maps, supported by our newly constructed R2R-TopDown dataset. To solve this, we introduce NavOne, a unified framework that directly predicts dense path probabilities over multi-modal maps in a single end-to-end forward pass. NavOne features a Top-Down Map Fuser for joint multi-modal map representation, and extends Attention Residuals for spatial-aware depth mixing. Extensive experiments on R2R-TopDown show that NavOne achieves state-of-the-art performance among map-based VLN methods, with a planning-stage speedup of 8x over existing map-based baselines and 80x over egocentric methods, enabling highly efficient global navigation.