MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps

📄 arXiv: 2602.10518v1 📥 PDF

作者: Sharat Bhat, Harshita Khandelwal, Tushar Kataria, Vivek Gupta

分类: cs.CV

发布日期: 2026-02-11


💡 一句话要点

MapVerse:一个用于评估真实世界地图上地理空间问答能力的大规模基准数据集。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理空间问答 视觉语言模型 基准数据集 真实世界地图 多模态推理

📋 核心要点

  1. 现有地图问答数据集范围窄、依赖人工生成内容,难以充分评估模型的地理空间推理能力。
  2. MapVerse构建于真实世界地图之上,包含多样化的地图类型和问题,旨在更真实地评估模型性能。
  3. 实验表明,现有VLM在分类任务上表现尚可,但在复杂空间推理任务上存在明显不足。

📝 摘要(中文)

地图是结构化和上下文知识的强大载体,涵盖地理、人口统计、基础设施和环境模式。对这些知识进行推理需要模型整合空间关系、视觉线索、真实世界背景和领域特定知识——而当前的大型语言模型(LLMs)和视觉语言模型(VLMs)仍然难以始终如一地展示这些能力。然而,用于评估VLMs在基于地图的推理能力的数据集范围狭窄,仅限于特定领域,并且严重依赖于人工生成的内容(来自LLMs或基于pipeline的方法的输出),为评估真正的地理空间推理提供的深度有限。为了解决这个差距,我们提出了MapVerse,一个建立在真实世界地图上的大规模基准。它包含11,837个由人工编写的问答对,涵盖1,025张地图,跨越十个不同的地图类别,每个类别有多个问题类别。该数据集为评估地图阅读、解释和多模态推理提供了一个丰富的环境。我们使用该基准评估了十个最先进的模型,以建立基线并量化推理差距。除了整体性能之外,我们还进行了细粒度的分类分析,以评估模型在多个维度上的推理能力,并研究影响推理结果的视觉因素。我们的研究结果表明,虽然当前的VLMs在分类任务上表现出竞争力,但开源和闭源模型在需要复杂空间推理的高级任务上都表现不足。

🔬 方法详解

问题定义:论文旨在解决现有地图问答基准数据集的不足,即数据集规模小、真实性低、领域单一,难以有效评估视觉语言模型在真实世界地图上的地理空间推理能力。现有方法依赖人工生成数据,与真实地图存在差距,无法准确反映模型在实际应用中的性能。

核心思路:论文的核心思路是构建一个大规模、多样化、基于真实世界地图的问答数据集,从而更全面、更准确地评估视觉语言模型在地理空间推理方面的能力。通过人工标注问答对,保证数据的质量和真实性,并涵盖多种地图类型和问题类型,以考察模型在不同场景下的表现。

技术框架:MapVerse数据集的构建流程主要包括以下几个阶段:1) 数据收集:收集来自不同来源的真实世界地图,涵盖十个不同的地图类别。2) 问题生成:由人工根据地图内容生成多样化的问答对,每个地图对应多个问题类别。3) 数据清洗和验证:对生成的数据进行清洗和验证,确保数据的质量和一致性。4) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。

关键创新:MapVerse的关键创新在于其数据集的真实性和多样性。与以往依赖人工生成数据的方法不同,MapVerse基于真实世界地图构建,能够更真实地反映实际应用场景。此外,MapVerse涵盖了多种地图类型和问题类型,能够更全面地评估模型在不同场景下的表现。

关键设计:MapVerse数据集包含11,837个问答对,涵盖1,025张地图,跨越十个不同的地图类别。每个地图类别包含多个问题类别,例如地图阅读、解释和多模态推理。数据集的划分比例未知,但应保证训练集、验证集和测试集的分布一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文使用MapVerse数据集评估了十个最先进的视觉语言模型,结果表明,虽然这些模型在分类任务上表现出竞争力,但在需要复杂空间推理的高级任务上都表现不足。这表明现有模型在理解和推理真实世界地图方面仍存在很大的提升空间,MapVerse数据集为未来的研究提供了重要的基准。

🎯 应用场景

MapVerse数据集可用于训练和评估视觉语言模型在地理空间推理方面的能力,从而推动相关技术在智能导航、城市规划、环境监测、灾害救援等领域的应用。该数据集能够帮助研究人员开发更智能、更可靠的地图理解系统,为人们提供更便捷、更高效的地理信息服务。

📄 摘要(原文)

Maps are powerful carriers of structured and contextual knowledge, encompassing geography, demographics, infrastructure, and environmental patterns. Reasoning over such knowledge requires models to integrate spatial relationships, visual cues, real-world context, and domain-specific expertise-capabilities that current large language models (LLMs) and vision-language models (VLMs) still struggle to exhibit consistently. Yet, datasets used to benchmark VLMs on map-based reasoning remain narrow in scope, restricted to specific domains, and heavily reliant on artificially generated content (outputs from LLMs or pipeline-based methods), offering limited depth for evaluating genuine geospatial reasoning. To address this gap, we present MapVerse, a large-scale benchmark built on real-world maps. It comprises 11,837 human-authored question-answer pairs across 1,025 maps, spanning ten diverse map categories and multiple question categories for each. The dataset provides a rich setting for evaluating map reading, interpretation, and multimodal reasoning. We evaluate ten state-of-the-art models against our benchmark to establish baselines and quantify reasoning gaps. Beyond overall performance, we conduct fine-grained categorical analyses to assess model inference across multiple dimensions and investigate the visual factors shaping reasoning outcomes. Our findings reveal that while current VLMs perform competitively on classification-style tasks, both open- and closed-source models fall short on advanced tasks requiring complex spatial reasoning.