How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace

📄 arXiv: 2604.07973v1 📥 PDF

作者: Baining Zhao, Ziyou Wang, Jianjie Fang, Zile Zhou, Yanggang Xu, Yatai Ji, Jiacheng Xu, Qian Zhang, Weichen Zhang, Chen Gao, Xinlei Chen

分类: cs.AI

发布日期: 2026-04-09

🔗 代码/项目: GITHUB


💡 一句话要点

构建城市空域导航基准,评估大型多模态模型在具身空间行为中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 具身导航 城市空域 数据集构建 行为评估

📋 核心要点

  1. 现有大型多模态模型在空间决策和行动能力方面存在不足,尤其是在复杂的城市3D导航场景中。
  2. 论文构建了一个新的城市空域导航数据集,并设计了一套评估框架,用于衡量LMMs的具身空间行为能力。
  3. 实验表明,现有LMMs在导航任务中表现出初步能力,但与人类水平差距明显,且存在关键决策分歧问题。

📝 摘要(中文)

本文旨在评估大型多模态模型(LMMs)在具身空间行为方面的能力,特别是在城市3D空间中进行目标导向导航的挑战性场景下。为此,作者构建了一个包含5037个高质量目标导向导航样本的数据集,该数据集特别强调了3D垂直动作和丰富的城市语义信息,耗时超过500小时。随后,对17个代表性模型进行了全面评估,包括非推理LMMs、推理LMMs、基于Agent的方法以及视觉-语言-动作模型。实验结果表明,当前的LMMs展现出初步的动作能力,但距离人类水平仍有很大差距。此外,研究揭示了一个有趣的现象:导航错误并非线性累积,而是在关键决策分歧后迅速偏离目标。通过分析LMMs在这些关键决策分歧点的行为,探讨了LMMs的局限性。最后,实验性地探索了四个有希望的改进方向:几何感知、跨视角理解、空间想象和长期记忆。项目代码已开源。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在复杂城市环境中进行目标导向导航的问题。现有方法在处理3D空间推理、垂直动作规划以及理解丰富的城市语义信息方面存在不足,导致导航性能不佳。此外,现有研究缺乏针对城市空域导航的专门数据集和评估基准。

核心思路:论文的核心思路是通过构建一个高质量的城市空域导航数据集,并设计一套全面的评估框架,来系统地评估LMMs在具身空间行为方面的能力。通过分析LMMs在关键决策点的行为,揭示其局限性,并探索潜在的改进方向。

技术框架:整体框架包括数据收集与标注、模型评估和错误分析三个主要阶段。首先,构建包含5037个样本的城市空域导航数据集,该数据集包含丰富的3D场景信息、垂直动作指令和城市语义信息。然后,选择17个代表性模型进行评估,包括非推理LMMs、推理LMMs、基于Agent的方法以及视觉-语言-动作模型。最后,通过分析模型在关键决策分歧点的行为,识别其局限性,并提出改进方向。

关键创新:论文的关键创新在于:1) 构建了一个高质量的城市空域导航数据集,填补了该领域的数据空白;2) 提出了一个全面的评估框架,用于评估LMMs在具身空间行为方面的能力;3) 揭示了导航错误非线性累积的现象,并分析了LMMs在关键决策点的局限性;4) 探索了四个有希望的改进方向:几何感知、跨视角理解、空间想象和长期记忆。

关键设计:数据集构建过程中,作者花费超过500小时进行数据收集和标注,确保数据的质量和多样性。在模型评估方面,作者选择了17个代表性模型,并设计了一系列评估指标,包括导航成功率、路径长度等。在错误分析方面,作者重点关注模型在关键决策分歧点的行为,并分析其原因。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LMMs在城市空域导航任务中表现出初步的动作能力,但距离人类水平仍有很大差距。研究发现,导航错误并非线性累积,而是在关键决策分歧后迅速偏离目标。通过分析LMMs在这些关键决策点的行为,揭示了其在几何感知、跨视角理解、空间想象和长期记忆方面的局限性。

🎯 应用场景

该研究成果可应用于无人机导航、自动驾驶、机器人导航等领域。通过提升LMMs在复杂环境下的空间推理和决策能力,可以提高无人机和机器人在城市环境中的自主导航性能,从而实现更高效、安全的物流配送、环境监测和智能安防等应用。

📄 摘要(原文)

Large multimodal models (LMMs) show strong visual-linguistic reasoning but their capacity for spatial decision-making and action remains unclear. In this work, we investigate whether LMMs can achieve embodied spatial action like human through a challenging scenario: goal-oriented navigation in urban 3D spaces. We first spend over 500 hours constructing a dataset comprising 5,037 high-quality goal-oriented navigation samples, with an emphasis on 3D vertical actions and rich urban semantic information. Then, we comprehensively assess 17 representative models, including non-reasoning LMMs, reasoning LMMs, agent-based methods, and vision-language-action models. Experiments show that current LMMs exhibit emerging action capabilities, yet remain far from human-level performance. Furthermore, we reveal an intriguing phenomenon: navigation errors do not accumulate linearly but instead diverge rapidly from the destination after a critical decision bifurcation. The limitations of LMMs are investigated by analyzing their behavior at these critical decision bifurcations. Finally, we experimentally explore four promising directions for improvement: geometric perception, cross-view understanding, spatial imagination, and long-term memory. The project is available at: https://github.com/serenditipy-AC/Embodied-Navigation-Bench.