SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation
作者: Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He Wang
分类: cs.RO
发布日期: 2026-03-10
💡 一句话要点
SPAN-Nav:通过通用空间感知实现多功能视觉-语言导航
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言导航 空间感知 占用预测 具身智能 多任务学习
📋 核心要点
- 现有视觉-语言导航方法在复杂环境中缺乏足够的空间感知能力,导致路径规划的可靠性不足。
- SPAN-Nav通过占用预测任务学习通用3D空间先验,并使用单个token将空间线索注入到动作推理中。
- SPAN-Nav在多个基准测试中取得了SOTA性能,并在真实世界实验中验证了其鲁棒性和可靠性。
📝 摘要(中文)
本文提出SPAN-Nav,一个端到端的基础模型,旨在通过RGB视频流为具身导航注入通用的3D空间感知能力。SPAN-Nav通过对大量室内和室外环境的占用预测任务,提取跨场景的空间先验知识。为了减轻计算负担,引入了一种紧凑的空间先验表示,发现单个token足以封装导航任务所需的粗粒度线索。受Chain-of-Thought机制的启发,SPAN-Nav利用这个单一的空间token,通过端到端框架将空间线索显式地注入到动作推理中。通过多任务协同训练,SPAN-Nav从广义空间先验中捕获任务自适应线索,从而实现鲁棒的空间感知,甚至可以推广到缺乏显式空间监督的任务。为了支持全面的空间学习,本文提出了一个包含420万个占用标注的大规模数据集,涵盖了多种导航任务的室内和室外场景。SPAN-Nav在跨越不同场景和各种导航任务的三个基准测试中取得了最先进的性能。最后,真实世界的实验验证了该方法在复杂物理场景中的鲁棒泛化能力和实际可靠性。
🔬 方法详解
问题定义:现有基于视觉-语言模型的具身导航方法在复杂环境中进行可靠路径规划时面临挑战,主要原因是缺乏足够的空间感知能力。这些方法难以准确理解和利用环境的3D空间信息,导致导航决策的准确性和鲁棒性下降。
核心思路:SPAN-Nav的核心思路是通过预训练的方式,让模型学习通用的3D空间先验知识,然后将这些先验知识融入到导航任务中。具体来说,模型通过预测场景的占用情况来学习空间信息,并使用一个紧凑的token表示这些信息,以便高效地进行推理。
技术框架:SPAN-Nav是一个端到端的框架,主要包含以下几个模块:1) 视频编码器:用于提取RGB视频流的视觉特征。2) 空间先验学习模块:通过占用预测任务学习场景的空间信息,并将其编码为单个token。3) 动作推理模块:将视觉特征、语言指令和空间token作为输入,进行动作推理,输出导航指令。4) 多任务协同训练:同时训练占用预测任务和导航任务,以提高模型的泛化能力。
关键创新:SPAN-Nav的关键创新在于:1) 引入了通用的3D空间感知能力,通过预训练的方式学习空间先验知识。2) 使用单个token来表示空间信息,实现了高效的空间推理。3) 提出了多任务协同训练的方法,提高了模型的泛化能力。4) 构建了一个大规模的占用标注数据集,为空间学习提供了数据支持。
关键设计:在空间先验学习模块中,模型使用3D卷积神经网络来预测场景的占用情况。为了减少计算量,模型只预测粗粒度的占用信息。在动作推理模块中,模型使用Transformer网络来融合视觉特征、语言指令和空间token。损失函数包括占用预测损失和导航任务损失。多任务协同训练的权重需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
SPAN-Nav在三个基准测试中取得了SOTA性能,证明了其有效性。例如,在XXX数据集上,SPAN-Nav的成功率比现有方法提高了XX%。此外,真实世界的实验也验证了SPAN-Nav的鲁棒性和可靠性,表明其在复杂物理场景中具有良好的泛化能力。具体性能数据请参考原文。
🎯 应用场景
SPAN-Nav具有广泛的应用前景,包括但不限于:机器人导航、自动驾驶、虚拟现实、增强现实等领域。该研究可以提高机器人在复杂环境中的导航能力,使其能够更好地理解和利用周围的空间信息,从而实现更安全、更高效的导航。此外,该研究还可以应用于室内服务机器人、物流机器人等领域,提高其在实际场景中的应用价值。
📄 摘要(原文)
Recent embodied navigation approaches leveraging Vision-Language Models (VLMs) demonstrate strong generalization in versatile Vision-Language Navigation (VLN). However, reliable path planning in complex environments remains challenging due to insufficient spatial awareness. In this work, we introduce SPAN-Nav, an end-to-end foundation model designed to infuse embodied navigation with universal 3D spatial awareness using RGB video streams. SPAN-Nav extracts spatial priors across diverse scenes through an occupancy prediction task on extensive indoor and outdoor environments. To mitigate the computational burden, we introduce a compact representation for spatial priors, finding that a single token is sufficient to encapsulate the coarse-grained cues essential for navigation tasks. Furthermore, inspired by the Chain-of-Thought (CoT) mechanism, SPAN-Nav utilizes this single spatial token to explicitly inject spatial cues into action reasoning through an end-to end framework. Leveraging multi-task co-training, SPAN-Nav captures task-adaptive cues from generalized spatial priors, enabling robust spatial awareness to generalize even to the task lacking explicit spatial supervision. To support comprehensive spatial learning, we present a massive dataset of 4.2 million occupancy annotations that covers both indoor and outdoor scenes across multi-type navigation tasks. SPAN-Nav achieves state-of-the-art performance across three benchmarks spanning diverse scenarios and varied navigation tasks. Finally, real-world experiments validate the robust generalization and practical reliability of our approach across complex physical scenarios.