MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

📄 arXiv: 2505.23764v2 📥 PDF

作者: Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang

分类: cs.CV, cs.CL

发布日期: 2025-05-29 (更新: 2025-09-25)

备注: 34 pages. A comprehensive, fully human-curated, multi-image-based spatial intelligence benchmark with reasoning annotation for MLLMs. Project page: https://runsenxu.com/projects/MMSI_Bench


💡 一句话要点

MMSI-Bench:多图空间智能基准,挑战多模态大语言模型的空间推理能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多图空间智能 视觉问答 多模态大语言模型 基准测试 错误分析

📋 核心要点

  1. 现有基准主要评估单图关系,无法满足现实世界中对多图空间推理的需求,对多模态大语言模型提出了挑战。
  2. MMSI-Bench通过构建包含大量图像和复杂推理问题的基准,旨在评估和提升模型在多图场景下的空间智能。
  3. 实验结果表明,现有模型在MMSI-Bench上的表现远低于人类水平,突显了该基准的挑战性和未来研究的巨大空间。

📝 摘要(中文)

本文提出了MMSI-Bench,一个专门用于评估多图空间智能的视觉问答基准。该基准包含超过12万张图像,并从中精心设计了1000个具有挑战性、明确的多项选择题,每个问题都配有精心设计的干扰项和逐步推理过程。通过对34个开源和专有的多模态大语言模型进行广泛的实验评估,发现模型性能与人类水平之间存在巨大差距:最强的开源模型准确率约为30%,OpenAI的o3推理模型达到40%,而人类得分高达97%。此外,利用标注的推理过程,提供了一个自动化的错误分析流程,诊断了四个主要的失败模式,为提升多图空间智能提供了有价值的见解。

🔬 方法详解

问题定义:现有视觉问答基准主要关注单张图像内的关系推理,无法有效评估多模态大语言模型在复杂物理世界中进行多图空间推理的能力。现有方法难以处理多视角、多场景下的空间关系理解,限制了其在实际应用中的潜力。

核心思路:MMSI-Bench的核心思路是通过构建一个包含大量多图场景和复杂空间推理问题的基准数据集,来系统性地评估和诊断多模态大语言模型在多图空间智能方面的能力。通过精心设计的问答和干扰项,以及详细的推理过程标注,为模型提供更具挑战性和指导性的学习环境。

技术框架:MMSI-Bench的构建流程主要包括以下几个阶段:1) 数据收集:收集超过12万张图像,涵盖各种场景和视角;2) 问题生成:由3D视觉研究人员设计1000个多项选择题,每个问题需要基于多张图像进行空间推理;3) 干扰项设计:为每个问题设计具有迷惑性的干扰项,增加问题的难度;4) 推理过程标注:详细标注每个问题的推理过程,为错误分析提供依据;5) 自动化错误分析:构建自动化错误分析流程,诊断模型的失败模式。

关键创新:MMSI-Bench的关键创新在于其专注于多图空间智能的评估,并提供了一个包含详细推理过程标注的大规模基准数据集。此外,自动化错误分析流程能够有效地诊断模型的失败模式,为未来的研究提供有价值的指导。与现有基准相比,MMSI-Bench更具挑战性和实用性,能够更好地反映模型在真实世界中的表现。

关键设计:MMSI-Bench的问题设计涵盖了多种空间推理类型,包括:1) grounding errors(定位错误);2) overlap-matching and scene-reconstruction errors(重叠匹配和场景重建错误);3) situation-transformation reasoning errors(情境转换推理错误);4) spatial-logic errors(空间逻辑错误)。通过对这些不同类型的错误进行分析,可以更深入地了解模型的弱点,并针对性地进行改进。具体参数设置和网络结构的选择取决于所评估的多模态大语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在MMSI-Bench上的表现与人类水平存在显著差距。最强的开源模型准确率约为30%,OpenAI的o3推理模型达到40%,而人类得分高达97%。这些结果突显了MMSI-Bench的挑战性,并表明现有模型在多图空间智能方面仍有很大的提升空间。自动化错误分析流程揭示了模型的主要失败模式,为未来的研究提供了重要的指导。

🎯 应用场景

MMSI-Bench的研究成果可应用于机器人导航、自动驾驶、智能家居等领域。通过提升模型的多图空间智能,可以使其更好地理解周围环境,从而做出更准确的决策。例如,在机器人导航中,模型可以利用多个摄像头获取的图像信息,进行场景重建和路径规划。在自动驾驶中,模型可以利用多个传感器获取的数据,进行环境感知和行为预测。该研究的未来影响在于推动多模态大语言模型在现实世界中的应用。

📄 摘要(原文)

Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the complex physical world. Existing benchmarks, however, probe only single-image relations and thus fail to assess the multi-image spatial reasoning that real-world deployments demand. We introduce MMSI-Bench, a VQA benchmark dedicated to multi-image spatial intelligence. Six 3D-vision researchers spent more than 300 hours meticulously crafting 1,000 challenging, unambiguous multiple-choice questions from over 120,000 images, each paired with carefully designed distractors and a step-by-step reasoning process. We conduct extensive experiments and thoroughly evaluate 34 open-source and proprietary MLLMs, observing a wide gap: the strongest open-source model attains roughly 30% accuracy and OpenAI's o3 reasoning model reaches 40%, while humans score 97%. These results underscore the challenging nature of MMSI-Bench and the substantial headroom for future research. Leveraging the annotated reasoning processes, we also provide an automated error analysis pipeline that diagnoses four dominant failure modes, including (1) grounding errors, (2) overlap-matching and scene-reconstruction errors, (3) situation-transformation reasoning errors, and (4) spatial-logic errors, offering valuable insights for advancing multi-image spatial intelligence. Project page: https://runsenxu.com/projects/MMSI_Bench .