NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

📄 arXiv: 2510.08173v1 📥 PDF

作者: Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2025-10-09


💡 一句话要点

提出NavSpace基准测试,评估并提升导航智能体空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身导航 空间智能 基准测试 指令跟随 机器人 多模态学习 空间推理

📋 核心要点

  1. 现有导航基准测试侧重语义理解,缺乏对智能体空间感知和推理能力的系统评估。
  2. 提出NavSpace基准,包含多种空间推理任务,并设计了新的空间智能导航模型SNav。
  3. SNav在NavSpace和真实机器人测试中表现优异,为未来研究提供了强有力的基线。

📝 摘要(中文)

指令跟随导航是具身智能的关键一步。现有的基准测试主要关注语义理解,而忽略了对导航智能体空间感知和推理能力的系统评估。本文提出了NavSpace基准测试,包含六个任务类别和1228个轨迹-指令对,旨在探测导航智能体的空间智能。在该基准测试上,我们全面评估了22个导航智能体,包括最先进的导航模型和多模态大型语言模型。评估结果揭示了具身导航中的空间智能。此外,我们提出了一种新的空间智能导航模型SNav。SNav在NavSpace和真实机器人测试中优于现有的导航智能体,为未来的工作建立了一个强大的基线。

🔬 方法详解

问题定义:现有指令跟随导航任务主要关注智能体对指令语义的理解,而忽略了对智能体空间感知和推理能力的评估。这导致智能体难以处理需要复杂空间推理的导航任务,例如根据相对位置关系寻找目标。

核心思路:论文的核心思路是构建一个专门用于评估导航智能体空间智能的基准测试NavSpace,并在此基础上设计一个能够有效利用空间信息的导航模型SNav。通过NavSpace的评估,可以更清晰地了解现有导航智能体在空间推理方面的不足,并指导SNav的设计。

技术框架:NavSpace基准包含六个任务类别,涵盖了不同的空间推理能力,例如距离估计、方向判断、形状识别等。SNav模型可能包含以下模块:1) 视觉感知模块,用于提取环境的视觉特征;2) 空间推理模块,用于根据视觉特征和指令进行空间推理;3) 运动规划模块,用于生成导航轨迹。整体流程是:输入指令和环境信息,视觉感知模块提取视觉特征,空间推理模块进行推理,运动规划模块生成轨迹,智能体执行轨迹。

关键创新:NavSpace基准的创新在于其专门针对空间智能的评估设计,能够更全面地评估导航智能体的能力。SNav模型的创新可能在于其空间推理模块的设计,例如采用注意力机制来关注与空间推理相关的视觉特征,或者采用图神经网络来建模环境中的空间关系。与现有方法相比,SNav更侧重于利用空间信息进行导航。

关键设计:论文中可能包含以下关键设计细节:1) NavSpace基准中每个任务类别的具体设计,例如如何生成轨迹-指令对,如何评估智能体的性能;2) SNav模型中空间推理模块的具体实现,例如注意力机制的类型、图神经网络的结构、损失函数的设计;3) 训练SNav模型所使用的训练数据和训练策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了NavSpace基准测试,并评估了22个导航智能体,揭示了现有模型在空间智能方面的不足。提出的SNav模型在NavSpace基准和真实机器人测试中均取得了显著的性能提升,表明其在空间推理方面具有更强的能力。具体性能数据和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过提升导航智能体的空间智能,可以使其在复杂环境中更准确、更高效地完成导航任务。例如,在仓库机器人中,可以根据指令准确找到指定位置的货物;在自动驾驶中,可以更好地理解交通规则和环境信息,从而做出更安全的决策。

📄 摘要(原文)

Instruction-following navigation is a key step toward embodied intelligence. Prior benchmarks mainly focus on semantic understanding but overlook systematically evaluating navigation agents' spatial perception and reasoning capabilities. In this work, we introduce the NavSpace benchmark, which contains six task categories and 1,228 trajectory-instruction pairs designed to probe the spatial intelligence of navigation agents. On this benchmark, we comprehensively evaluate 22 navigation agents, including state-of-the-art navigation models and multimodal large language models. The evaluation results lift the veil on spatial intelligence in embodied navigation. Furthermore, we propose SNav, a new spatially intelligent navigation model. SNav outperforms existing navigation agents on NavSpace and real robot tests, establishing a strong baseline for future work.