Multimodal Language Models Cannot Spot Spatial Inconsistencies

📄 arXiv: 2604.00799 📥 PDF

作者: Om Khangaonkar, Hadi J. Rad, Hamed Pirsiavash

分类: cs.CV, cs.CL, cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出多视角空间一致性评估方法,揭示MLLM在3D推理上的不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 空间推理 三维几何 一致性评估 大型语言模型

📋 核心要点

  1. 现有MLLM难以进行跨视角3D几何推理,缺乏对物理世界深层理解。
  2. 提出一种可扩展方法,生成空间不一致图像对,用于评估MLLM的空间推理能力。
  3. 实验表明,现有MLLM在空间一致性判断上远逊于人类,且性能不稳定。

📝 摘要(中文)

空间一致性是视觉世界的基本属性,也是旨在理解物理现实的模型的关键要求。尽管最近取得了进展,但多模态大型语言模型(MLLM)在跨多个视角推理3D几何方面仍然存在困难。本文没有要求模型描述场景属性,而是引入了一项更具挑战性的任务:给定同一场景的两个视图,识别违反3D运动一致性的对象。我们提出了一种简单且可扩展的方法,用于从多视图场景生成逼真的、空间不一致的图像对,从而能够系统地评估这种能力。结果表明,最先进的MLLM的性能明显低于人类观察者,并且在不同的场景属性中表现出很大的差异,揭示了对3D结构的脆弱和不完整的理解。我们希望我们的发现强调需要开发对物理世界有更深刻理解的方法。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在理解和推理三维空间几何结构方面的不足。现有的MLLM虽然在图像描述等任务上表现出色,但在跨多个视角理解和推理三维场景的空间一致性方面存在明显缺陷。现有方法通常侧重于让模型描述场景属性,而忽略了对物理世界基本规律的理解,导致模型难以发现场景中违反物理规则的现象。

核心思路:论文的核心思路是通过构建一个更具挑战性的任务来评估MLLM的空间推理能力,即给定同一场景的两个视角,要求模型识别违反三维运动一致性的对象。这种方法侧重于考察模型对三维空间几何结构的理解和推理能力,而非简单的场景描述。通过系统地生成包含空间不一致性的图像对,可以更有效地评估MLLM在理解物理世界方面的能力。

技术框架:论文提出的评估框架主要包含以下几个阶段:1) 多视角场景生成:利用多视角场景数据,生成包含多个视角的图像。2) 空间不一致性引入:在场景中引入违反三维运动一致性的对象,例如,将一个对象在不同视角下的位置设置为不符合物理规律。3) 图像对生成:从修改后的场景中选择两个视角,生成图像对,其中一个视角包含空间不一致性。4) MLLM评估:将生成的图像对输入到MLLM中,要求模型识别违反空间一致性的对象。5) 性能评估:将模型的输出与真实标签进行比较,评估模型的性能。

关键创新:论文的关键创新在于提出了一种简单且可扩展的方法,用于生成包含空间不一致性的图像对,从而能够系统地评估MLLM的空间推理能力。与以往侧重于场景描述的评估方法不同,该方法侧重于考察模型对三维空间几何结构的理解和推理能力。此外,该方法具有良好的可扩展性,可以应用于不同的场景和对象,从而更全面地评估MLLM的空间推理能力。

关键设计:论文的关键设计包括:1) 空间不一致性生成方法:设计了一种简单有效的方法,用于在场景中引入违反三维运动一致性的对象。2) 图像对选择策略:设计了一种策略,用于选择包含空间不一致性的图像对,以确保评估的有效性。3) 评估指标:选择合适的评估指标,用于衡量MLLM在识别空间不一致性方面的性能。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的MLLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的MLLM在空间一致性判断任务上的表现远低于人类水平,准确率显著低于人类观察者。同时,模型在不同场景属性下的性能表现出较大的差异,表明其对3D结构的理解较为片面和脆弱。这些发现揭示了现有MLLM在理解物理世界方面的局限性,为未来的研究方向提供了重要参考。

🎯 应用场景

该研究成果可应用于提升机器人导航、自动驾驶等领域中AI系统的环境感知能力。通过提高模型对物理世界空间一致性的理解,可以减少AI系统在复杂环境中的误判,增强其安全性和可靠性。此外,该研究也为开发更具通用性和鲁棒性的多模态AI模型提供了新的思路。

📄 摘要(原文)

Spatial consistency is a fundamental property of the visual world and a key requirement for models that aim to understand physical reality. Despite recent advances, multimodal large language models (MLLMs) often struggle to reason about 3D geometry across multiple views. Rather than asking models to describe scene attributes, we introduce a more challenging task: given two views of the same scene, identify the object that violates 3D motion consistency. We propose a simple and scalable method for generating realistic, spatially inconsistent image pairs from multi-view scenes, enabling systematic evaluation of this capability. Our results show that state-of-the-art MLLMs significantly underperform human observers and exhibit substantial variability across different scene attributes, revealing a fragile and incomplete understanding of 3D structure. We hope our findings underscore the need for approaches that develop a more deeply grounded understanding of the physical world.