Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT

📄 arXiv: 2505.24182v1 📥 PDF

作者: Zhuobai Dong, Junchao Yi, Ziyuan Zheng, Haochen Han, Xiangxi Zheng, Alex Jinpeng Wang, Fangming Liu, Linjie Li

分类: cs.CV, cs.AI

发布日期: 2025-05-30


💡 一句话要点

提出MVPBench:基于图结构评估多模态大模型在视觉物理常识推理中的多步推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉物理推理 多模态大模型 思维链 基准测试 图推理

📋 核心要点

  1. 现有MLLM在复杂视觉场景下的物理常识推理能力不足,难以理解物理定律、空间关系和因果效应。
  2. 提出MVPBench基准,通过多图像输入和逐步推理路径,模拟人类在物理世界中的推理过程。
  3. 实验表明,即使是先进的MLLM在MVPBench上表现不佳,且RL微调反而可能损害空间推理能力。

📝 摘要(中文)

理解由运动定律、空间关系和因果关系支配的物理世界,对于多模态大型语言模型(MLLM)来说是一个根本性的挑战。尽管最近的进展(如OpenAI o3和GPT-4o)展示了令人印象深刻的感知和推理能力,但我们的研究表明,这些模型在视觉物理推理方面存在严重不足,无法掌握复杂场景中的基本物理定律、空间交互和因果效应。更重要的是,它们常常无法遵循基于视觉证据的连贯推理链,尤其是在需要多个步骤才能得出正确答案时。为了严格评估这种能力,我们引入了MVPBench,这是一个精心设计的基准,旨在通过视觉思维链(CoT)的视角严格评估视觉物理推理。每个示例都包含交错的多图像输入,不仅需要正确的最终答案,还需要一个连贯的、基于不断演变的视觉线索的逐步推理路径。这种设置反映了人类如何通过现实世界的物理过程进行推理。为了确保细粒度的评估,我们引入了一种基于图的CoT一致性度量,用于验证模型的推理路径是否符合有效的物理逻辑。此外,我们最大限度地减少了文本先验的捷径利用,鼓励模型依赖视觉理解。实验结果揭示了一个令人担忧的趋势:即使是最先进的MLLM在物理领域的视觉推理准确性较差,图像-文本对齐较弱。令人惊讶的是,通常被认为可以提高视觉推理性能的基于强化学习的后训练对齐,反而会损害空间推理,这表明需要重新思考当前的微调实践。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在视觉物理推理方面存在的不足。现有方法难以理解复杂场景中的物理定律、空间关系和因果效应,尤其是在需要多步推理的情况下,模型无法生成连贯的、基于视觉证据的推理链。此外,模型容易利用文本先验知识,而非真正理解视觉信息进行推理。

核心思路:论文的核心思路是构建一个更具挑战性的基准测试集MVPBench,该基准侧重于评估模型在视觉物理推理中的多步推理能力。通过提供多图像输入和要求模型生成逐步推理路径,鼓励模型依赖视觉信息进行推理,并减少对文本先验知识的依赖。同时,引入基于图的CoT一致性度量,用于评估推理路径的合理性。

技术框架:MVPBench基准测试集包含多个示例,每个示例由一系列图像和一个需要推理的物理问题组成。模型需要根据图像序列逐步推理,并给出最终答案。为了评估推理过程的合理性,论文引入了基于图的CoT一致性度量。该度量将推理路径表示为一个图,其中节点表示推理步骤,边表示推理步骤之间的关系。通过检查图的结构和节点之间的关系,可以评估推理路径是否符合物理逻辑。

关键创新:论文的关键创新在于:1) 提出了MVPBench基准测试集,该基准更侧重于评估模型在视觉物理推理中的多步推理能力。2) 引入了基于图的CoT一致性度量,用于评估推理路径的合理性。3) 强调了减少模型对文本先验知识的依赖,鼓励模型依赖视觉信息进行推理。与现有方法相比,MVPBench更具挑战性,能够更全面地评估模型的视觉物理推理能力。

关键设计:MVPBench中的示例设计考虑了多种物理场景,包括运动、碰撞、重力等。每个示例包含多个图像,这些图像展示了物理过程的不同阶段。问题设计旨在考察模型对物理定律、空间关系和因果效应的理解。基于图的CoT一致性度量使用了预定义的物理规则和关系,用于评估推理路径的合理性。论文还设计了实验来评估不同模型的性能,并分析了模型在不同类型问题上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的MLLM在MVPBench上的表现仍然不佳,视觉推理准确性较低。更令人惊讶的是,常用的RL后训练方法在提高视觉推理性能的同时,反而会损害空间推理能力。这表明需要重新思考当前的微调策略,并探索更有效的视觉物理推理学习方法。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能监控等领域。通过提高模型对物理世界的理解能力,可以使机器人在复杂环境中更好地进行决策和行动。例如,机器人可以根据视觉信息预测物体的运动轨迹,从而避免碰撞;自动驾驶系统可以根据场景理解交通规则,从而安全行驶。

📄 摘要(原文)

Understanding the physical world - governed by laws of motion, spatial relations, and causality - poses a fundamental challenge for multimodal large language models (MLLMs). While recent advances such as OpenAI o3 and GPT-4o demonstrate impressive perceptual and reasoning capabilities, our investigation reveals these models struggle profoundly with visual physical reasoning, failing to grasp basic physical laws, spatial interactions, and causal effects in complex scenes. More importantly, they often fail to follow coherent reasoning chains grounded in visual evidence, especially when multiple steps are needed to arrive at the correct answer. To rigorously evaluate this capability, we introduce MVPBench, a curated benchmark designed to rigorously evaluate visual physical reasoning through the lens of visual chain-of-thought (CoT). Each example features interleaved multi-image inputs and demands not only the correct final answer but also a coherent, step-by-step reasoning path grounded in evolving visual cues. This setup mirrors how humans reason through real-world physical processes over time. To ensure fine-grained evaluation, we introduce a graph-based CoT consistency metric that verifies whether the reasoning path of model adheres to valid physical logic. Additionally, we minimize shortcut exploitation from text priors, encouraging models to rely on visual understanding. Experimental results reveal a concerning trend: even cutting-edge MLLMs exhibit poor visual reasoning accuracy and weak image-text alignment in physical domains. Surprisingly, RL-based post-training alignment - commonly believed to improve visual reasoning performance - often harms spatial reasoning, suggesting a need to rethink current fine-tuning practices.