How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace

作者: Baining Zhao, Ziyou Wang, Jianjie Fang, Zile Zhou, Yanggang Xu, Yatai Ji, Jiacheng Xu, Qian Zhang, Weichen Zhang, Chen Gao, Xinlei Chen

分类: cs.AI

发布日期: 2026-04-09

🔗 代码/项目: GITHUB

💡 一句话要点

构建城市空域导航基准，评估大型多模态模型在具身空间行为中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 具身导航 城市空域 数据集构建 行为评估

📋 核心要点

现有大型多模态模型在空间决策和行动能力方面存在不足，尤其是在复杂的城市3D导航场景中。
论文构建了一个新的城市空域导航数据集，并设计了一套评估框架，用于衡量LMMs的具身空间行为能力。
实验表明，现有LMMs在导航任务中表现出初步能力，但与人类水平差距明显，且存在关键决策分歧问题。

📝 摘要（中文）

本文旨在评估大型多模态模型（LMMs）在具身空间行为方面的能力，特别是在城市3D空间中进行目标导向导航的挑战性场景下。为此，作者构建了一个包含5037个高质量目标导向导航样本的数据集，该数据集特别强调了3D垂直动作和丰富的城市语义信息，耗时超过500小时。随后，对17个代表性模型进行了全面评估，包括非推理LMMs、推理LMMs、基于Agent的方法以及视觉-语言-动作模型。实验结果表明，当前的LMMs展现出初步的动作能力，但距离人类水平仍有很大差距。此外，研究揭示了一个有趣的现象：导航错误并非线性累积，而是在关键决策分歧后迅速偏离目标。通过分析LMMs在这些关键决策分歧点的行为，探讨了LMMs的局限性。最后，实验性地探索了四个有希望的改进方向：几何感知、跨视角理解、空间想象和长期记忆。项目代码已开源。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型（LMMs）在复杂城市环境中进行目标导向导航的问题。现有方法在处理3D空间推理、垂直动作规划以及理解丰富的城市语义信息方面存在不足，导致导航性能不佳。此外，现有研究缺乏针对城市空域导航的专门数据集和评估基准。

核心思路：论文的核心思路是通过构建一个高质量的城市空域导航数据集，并设计一套全面的评估框架，来系统地评估LMMs在具身空间行为方面的能力。通过分析LMMs在关键决策点的行为，揭示其局限性，并探索潜在的改进方向。

技术框架：整体框架包括数据收集与标注、模型评估和错误分析三个主要阶段。首先，构建包含5037个样本的城市空域导航数据集，该数据集包含丰富的3D场景信息、垂直动作指令和城市语义信息。然后，选择17个代表性模型进行评估，包括非推理LMMs、推理LMMs、基于Agent的方法以及视觉-语言-动作模型。最后，通过分析模型在关键决策分歧点的行为，识别其局限性，并提出改进方向。

关键创新：论文的关键创新在于：1) 构建了一个高质量的城市空域导航数据集，填补了该领域的数据空白；2) 提出了一个全面的评估框架，用于评估LMMs在具身空间行为方面的能力；3) 揭示了导航错误非线性累积的现象，并分析了LMMs在关键决策点的局限性；4) 探索了四个有希望的改进方向：几何感知、跨视角理解、空间想象和长期记忆。

关键设计：数据集构建过程中，作者花费超过500小时进行数据收集和标注，确保数据的质量和多样性。在模型评估方面，作者选择了17个代表性模型，并设计了一系列评估指标，包括导航成功率、路径长度等。在错误分析方面，作者重点关注模型在关键决策分歧点的行为，并分析其原因。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LMMs在城市空域导航任务中表现出初步的动作能力，但距离人类水平仍有很大差距。研究发现，导航错误并非线性累积，而是在关键决策分歧后迅速偏离目标。通过分析LMMs在这些关键决策点的行为，揭示了其在几何感知、跨视角理解、空间想象和长期记忆方面的局限性。

🎯 应用场景

该研究成果可应用于无人机导航、自动驾驶、机器人导航等领域。通过提升LMMs在复杂环境下的空间推理和决策能力，可以提高无人机和机器人在城市环境中的自主导航性能，从而实现更高效、安全的物流配送、环境监测和智能安防等应用。

📄 摘要（原文）

Large multimodal models (LMMs) show strong visual-linguistic reasoning but their capacity for spatial decision-making and action remains unclear. In this work, we investigate whether LMMs can achieve embodied spatial action like human through a challenging scenario: goal-oriented navigation in urban 3D spaces. We first spend over 500 hours constructing a dataset comprising 5,037 high-quality goal-oriented navigation samples, with an emphasis on 3D vertical actions and rich urban semantic information. Then, we comprehensively assess 17 representative models, including non-reasoning LMMs, reasoning LMMs, agent-based methods, and vision-language-action models. Experiments show that current LMMs exhibit emerging action capabilities, yet remain far from human-level performance. Furthermore, we reveal an intriguing phenomenon: navigation errors do not accumulate linearly but instead diverge rapidly from the destination after a critical decision bifurcation. The limitations of LMMs are investigated by analyzing their behavior at these critical decision bifurcations. Finally, we experimentally explore four promising directions for improvement: geometric perception, cross-view understanding, spatial imagination, and long-term memory. The project is available at: https://github.com/serenditipy-AC/Embodied-Navigation-Bench.

How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理