MapTab: Can MLLMs Master Constrained Route Planning?
作者: Ziqiao Shang, Lingyue Ge, Yang Chen, Shi-Yu Tian, Zhenyu Huang, Wenbo Fu, Yu-Feng Li, Lan-Zhe Guo
分类: cs.LG
发布日期: 2026-02-20
💡 一句话要点
MapTab:评估多模态大语言模型在约束条件下的路线规划能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 约束推理 路线规划 基准测试 视觉感知
📋 核心要点
- 现有MLLM基准测试在评估模型处理约束条件下的推理能力方面存在不足,无法充分检验其通用智能。
- MapTab基准测试通过路线规划任务,结合地图图像的视觉信息和表格数据的属性约束,来评估MLLM的多模态推理能力。
- 实验结果表明,现有MLLM在处理受约束的多模态推理任务时面临挑战,尤其是在视觉感知受限的情况下。
📝 摘要(中文)
对多模态大语言模型(MLLM)的系统评估对于推动通用人工智能(AGI)至关重要。然而,现有的基准测试不足以严格评估其约束推理能力。为了弥补这一差距,我们引入了MapTab,这是一个专门设计的用于评估MLLM在路线规划任务中约束推理能力的多模态基准。MapTab要求MLLM感知并定位地图图像中的视觉线索,以及来自结构化表格数据的路线属性(例如,时间、价格)。该基准包括两种场景:Metromap,涵盖52个国家160个城市的地铁网络;Travelmap,描绘19个国家168个具有代表性的旅游景点。MapTab总共包含328张图像,196,800个路线规划查询和3,936个QA查询,所有这些都包含四个关键约束:时间、价格、舒适度和可靠性。对15个代表性MLLM的广泛评估表明,当前的模型在约束多模态推理方面面临着巨大的挑战。值得注意的是,在视觉感知有限的条件下,多模态协作的表现通常不如单模态方法。我们相信MapTab提供了一个具有挑战性和现实意义的测试平台,以推进MLLM的系统评估。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在复杂约束条件下的推理能力评估问题。现有基准测试无法充分评估模型在结合视觉信息和结构化数据进行推理时的性能,尤其是在路线规划等需要考虑多种约束的实际场景中。现有方法的痛点在于缺乏一个既包含视觉信息又包含结构化约束的综合性评估基准。
核心思路:论文的核心思路是构建一个包含地图图像和路线属性表格数据的多模态基准测试集MapTab,通过路线规划任务来评估MLLM在时间、价格、舒适度和可靠性等约束条件下的推理能力。这样设计的目的是为了模拟真实世界的复杂场景,更全面地评估MLLM的性能。
技术框架:MapTab基准测试包含两个场景:Metromap(地铁网络)和Travelmap(旅游景点)。每个场景都包含地图图像、路线属性表格数据以及相应的路线规划和问答查询。MLLM需要同时处理视觉信息和表格数据,并根据给定的约束条件选择最佳路线。整体流程包括:输入地图图像和表格数据,MLLM进行推理,输出路线规划结果或问答答案,最后根据预设的评估指标进行评估。
关键创新:MapTab的关键创新在于其综合性地结合了视觉信息和结构化数据,并引入了多个实际约束条件,从而更真实地模拟了现实世界的路线规划场景。与现有基准测试相比,MapTab更侧重于评估MLLM在复杂约束条件下的推理能力,而不仅仅是简单的视觉识别或文本理解。
关键设计:MapTab包含328张图像,196,800个路线规划查询和3,936个QA查询。四个关键约束包括:时间(Time)、价格(Price)、舒适度(Comfort)和可靠性(Reliability)。Metromap涵盖52个国家160个城市的地铁网络,Travelmap描绘19个国家168个具有代表性的旅游景点。具体参数设置和网络结构取决于所评估的MLLM模型。
📊 实验亮点
实验结果表明,现有MLLM在MapTab基准测试中面临显著挑战,尤其是在视觉感知受限的情况下,多模态协作效果甚至不如单模态方法。这表明当前MLLM在处理复杂约束条件下的多模态推理方面仍有很大的提升空间。该基准测试为未来MLLM的研究提供了一个具有挑战性和现实意义的评估平台。
🎯 应用场景
该研究成果可应用于开发更智能的导航系统、旅游规划助手和物流优化工具。通过提高MLLM在约束条件下的推理能力,可以为用户提供更个性化、更可靠的路线规划建议,并优化资源分配,提升效率。未来,该研究还有助于推动通用人工智能在实际场景中的应用。
📄 摘要(原文)
Systematic evaluation of Multimodal Large Language Models (MLLMs) is crucial for advancing Artificial General Intelligence (AGI). However, existing benchmarks remain insufficient for rigorously assessing their constrained reasoning capabilities. To bridge this gap, we introduce MapTab, a multimodal benchmark specifically designed to evaluate constrained reasoning in MLLMs via route planning tasks. MapTab requires MLLMs to perceive and ground visual cues from map images alongside route attributes (e.g., Time, Price) from structured tabular data. The benchmark encompasses two scenarios: Metromap, covering metro networks in 160 cities across 52 countries, and Travelmap, depicting 168 representative tourist attractions from 19 countries. In total, MapTab comprises 328 images, 196,800 route planning queries, and 3,936 QA queries, all incorporating 4 key constraints: Time, Price, Comfort, and Reliability. Extensive evaluations across 15 representative MLLMs reveal that current models face substantial challenges in constrained multimodal reasoning. Notably, under conditions of limited visual perception, multimodal collaboration often underperforms compared to unimodal approaches. We believe MapTab provides a challenging and realistic testbed to advance the systematic evaluation of MLLMs.