ERGeoBench:A Comprehensive Benchmark for Embodied Reasoning and Geo-localization in Multimodal Large Language Models

📄 arXiv: 2605.31251v1 📥 PDF

作者: Kaiwen Xue, Tao Wei, Guoxin Zhang, Zhonghong Ou, Kaoyan Lu, Yu Feng, Yifan Zhu, Haoran Luo

分类: cs.CV, cs.AI

发布日期: 2026-05-29

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ERGeoBench,用于评估多模态大语言模型在具身环境下的地理定位能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 具身智能 地理定位 基准测试 空间推理

📋 核心要点

  1. 现有方法缺乏对多模态大语言模型在具身环境下地理定位能力的细粒度评估。
  2. 提出ERGeoBench基准,通过单视图、全景视图和具身视图三种设置,全面评估模型。
  3. 实验表明,现有模型擅长高级地理语义推理,但在细粒度感知和空间一致性方面存在不足。

📝 摘要(中文)

多模态大语言模型(MLLMs)在具身智能体方面展现出巨大潜力,但由于缺乏细粒度的评估,具身地理定位仍未得到充分探索。本文提出了ERGeoBench,一个用于视觉驱动的具身地理定位的诊断基准。ERGeoBench在三种渐进式设置下评估模型:单视图、全景视图和具身视图,智能体可以通过偏航、俯仰和缩放的连续变化主动获取观察结果。该基准包含2207个全球分布的街景全景图,并衡量四个互补的能力:基础感知、空间意识、常识推理和地理定位推理。对领先的专有和开源MLLM的评估表明,当前的模型可以推断出高级地理语义,但仍然难以进行细粒度的感知操作、度量定位和跨视图的空间一致性。我们进一步观察到,地理定位与其他能力维度密切相关,表明准确的定位依赖于集成的感知、空间推理和常识推理,而不是孤立的视觉识别。总而言之,ERGeoBench提供了一个统一的框架,用于诊断和推进类人具身地理定位。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在具身环境下的地理定位能力评估问题。现有方法缺乏细粒度的评估基准,无法充分衡量模型在感知、空间推理和常识推理等方面的综合能力,尤其是在需要主动探索环境的情况下。现有方法难以评估模型在不同视角下的空间一致性,以及对细粒度视觉信息的处理能力。

核心思路:论文的核心思路是构建一个综合性的基准测试,通过设计不同的场景和任务,系统地评估多模态大语言模型在具身地理定位方面的各项能力。该基准不仅关注模型的视觉识别能力,还强调其空间推理、常识推理以及主动探索能力。通过分析模型在不同任务上的表现,可以诊断模型的优势和不足,为未来的研究提供指导。

技术框架:ERGeoBench基准包含三个主要设置:单视图、全景视图和具身视图。在单视图设置中,模型需要根据单个图像进行地理定位。在全景视图设置中,模型可以访问360度全景图像。在具身视图设置中,智能体可以通过连续改变偏航、俯仰和缩放来主动探索环境。基准测试包含2207个全球分布的街景全景图,并评估模型在四个方面的能力:基础感知、空间意识、常识推理和地理定位推理。

关键创新:ERGeoBench的关键创新在于其综合性和细粒度。它不仅考虑了模型的视觉识别能力,还强调了其空间推理、常识推理和主动探索能力。通过设计不同的场景和任务,可以系统地评估模型在具身地理定位方面的各项能力。此外,ERGeoBench还提供了一个统一的框架,用于诊断和推进类人具身地理定位。

关键设计:ERGeoBench的关键设计包括:1) 三种渐进式设置,从简单到复杂,逐步增加模型的挑战;2) 四个互补的能力维度,全面评估模型的各项能力;3) 大规模的街景全景图数据集,保证了评估的可靠性和泛化性;4) 详细的评估指标,可以量化模型的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的多模态大语言模型在高级地理语义推理方面表现良好,但在细粒度感知操作、度量定位和跨视图空间一致性方面存在不足。地理定位能力与其他能力维度密切相关,表明准确的定位依赖于集成的感知、空间推理和常识推理。ERGeoBench为诊断和改进多模态大语言模型的具身地理定位能力提供了一个有效的平台。

🎯 应用场景

ERGeoBench的研究成果可以应用于机器人导航、自动驾驶、增强现实等领域。通过提高多模态大语言模型在具身环境下的地理定位能力,可以使智能体更好地理解和适应周围环境,从而实现更智能、更自主的交互。该研究还有助于开发更可靠、更安全的自动驾驶系统,以及更具沉浸感的增强现实体验。

📄 摘要(原文)

Multimodal large language models (MLLMs) have shown strong potential as embodied agents, yet embodied geo-localization remains underexplored due to the lack of fine-grained evaluation. We introduce ERGeoBench, a diagnostic benchmark for vision-driven embodied geo-localization. ERGeoBench evaluates models under three progressive settings -- single-view, panorama-view, and embodied-view -- where agents may actively acquire observations through sequential changes in yaw, pitch, and zoom. The benchmark contains 2,207 globally distributed street-view panoramas and measures four complementary capabilities: foundational perception, spatial awareness, common sense reasoning, and geo-localization reasoning. Evaluations of leading proprietary and open-source MLLMs show that current models can infer high-level geographic semantics, but still struggle with fine-grained perceptual operations, metric localization, and spatial consistency across views. We further observe that geo-localization is strongly correlated with the other capability dimensions, suggesting that accurate localization depends on integrated perception, spatial reasoning, and commonsense inference rather than isolated visual recognition. Overall, ERGeoBench provides a unified framework for diagnosing and advancing human-like embodied geo-localization. Project Page: https://kaixuewen.github.io/ERGeoBench/