MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

📄 arXiv: 2501.00316v2 📥 PDF

作者: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez

分类: cs.CL

发布日期: 2024-12-31 (更新: 2025-06-06)

备注: ICML 2025 (Spotlight)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MapEval基准,评估大模型在地理空间推理中的能力。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理空间推理 基础模型 基准测试 地图理解 API交互

📋 核心要点

  1. 现有基准在评估大模型地理空间推理能力方面存在不足,无法全面考察模型在复杂场景下的表现。
  2. MapEval基准通过设计文本、API和视觉推理三种任务,全面评估模型在地理空间推理方面的能力。
  3. 实验结果表明,现有大模型在地理空间推理方面存在显著差距,与人类水平相比仍有较大提升空间。

📝 摘要(中文)

本文提出了MapEval,一个用于评估基础模型在地理空间推理能力上的基准。该基准包含700道多项选择题,覆盖180个城市和54个国家,通过文本、API和视觉推理三种不同的任务,考察模型在空间关系、导航、旅行规划和真实地图交互方面的能力。与以往侧重简单位置查询的基准不同,MapEval要求模型处理长文本推理、API交互和视觉地图分析,是目前最全面的地理空间AI评估框架。对包括Claude-3.5-Sonnet、GPT-4o和Gemini-1.5-Pro在内的30个基础模型的评估表明,没有一个模型的准确率超过67%,开源模型的表现明显更差,所有模型都落后于人类表现20%以上。这些结果揭示了模型在空间推理方面的关键差距,尤其是在距离、方向、路线规划和特定地点推理方面,突出了对更好的地理空间AI的需求,以弥合基础模型与真实世界导航之间的差距。

🔬 方法详解

问题定义:论文旨在解决现有基础模型在地理空间推理能力评估方面存在的不足。现有方法主要集中在简单的位置查询,无法有效评估模型在复杂场景下的空间关系理解、导航规划和地图交互能力。这些痛点限制了基础模型在实际地理空间应用中的部署。

核心思路:论文的核心思路是构建一个综合性的基准测试集,该测试集不仅包含文本推理,还包括API交互和视觉地图分析,从而更全面地评估基础模型在地理空间领域的推理能力。通过设计不同类型的任务,考察模型在空间关系、导航、旅行规划和真实地图交互等方面的表现。

技术框架:MapEval基准测试集包含三个主要任务:文本推理任务、API交互任务和视觉推理任务。文本推理任务主要考察模型对地理空间知识的理解和推理能力;API交互任务要求模型调用地理空间相关的API来获取信息并进行推理;视觉推理任务则需要模型分析地图图像,提取信息并进行推理。整个评估流程包括数据收集、问题生成、模型推理和结果评估等步骤。

关键创新:MapEval的关键创新在于其综合性和全面性。与以往的基准测试集相比,MapEval不仅考察了模型的文本推理能力,还考察了模型的API交互能力和视觉推理能力。此外,MapEval还覆盖了更广泛的地理区域和更复杂的场景,从而更全面地评估了基础模型在地理空间领域的推理能力。另一个创新点在于,该基准强调了长文本推理能力,这更贴近真实世界的应用场景。

关键设计:MapEval基准测试集包含700道多项选择题,覆盖180个城市和54个国家。问题类型包括空间关系推理(例如,A地在B地的哪个方向?)、导航规划(例如,如何从A地到达B地?)、旅行规划(例如,在A地旅行的最佳路线是什么?)和真实地图交互(例如,地图上显示的A地是什么?)。为了保证评估的公平性,论文还设计了一套标准的评估指标,包括准确率、召回率和F1值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有基础模型在MapEval基准上的表现远低于人类水平,最高准确率仅为67%,开源模型表现更差。所有模型在距离、方向和路线规划等方面的推理能力都存在显著差距。这些结果揭示了现有模型在地理空间推理方面的不足,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于自动驾驶、智能导航、物流优化、城市规划、灾害救援等领域。通过提升模型在地理空间推理方面的能力,可以实现更智能、更高效的地理空间服务,为人们的出行和生活带来便利。未来,该研究还可以促进地理空间AI技术的发展,推动相关领域的创新。

📄 摘要(原文)

Recent advancements in foundation models have improved autonomous tool usage and reasoning, but their capabilities in map-based reasoning remain underexplored. To address this, we introduce MapEval, a benchmark designed to assess foundation models across three distinct tasks - textual, API-based, and visual reasoning - through 700 multiple-choice questions spanning 180 cities and 54 countries, covering spatial relationships, navigation, travel planning, and real-world map interactions. Unlike prior benchmarks that focus on simple location queries, MapEval requires models to handle long-context reasoning, API interactions, and visual map analysis, making it the most comprehensive evaluation framework for geospatial AI. On evaluation of 30 foundation models, including Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro, none surpass 67% accuracy, with open-source models performing significantly worse and all models lagging over 20% behind human performance. These results expose critical gaps in spatial inference, as models struggle with distances, directions, route planning, and place-specific reasoning, highlighting the need for better geospatial AI to bridge the gap between foundation models and real-world navigation. All the resources are available at: https://mapeval.github.io/.