InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning

作者: Gautam Sreekumar, Vishnu Naresh Boddeti

分类: cs.AI, cs.LG

发布日期: 2025-09-12

备注: 35 pages including appendix

💡 一句话要点

提出InPhyRe基准，揭示大型多模态模型在归纳物理推理上的不足

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 物理推理 归纳推理 视觉问答 基准数据集

📋 核心要点

现有视觉基准侧重于评估LMMs的参数知识，忽略了其在未见过的物理环境中的归纳物理推理能力。
提出InPhyRe基准，通过算法生成的碰撞视频，评估LMMs在违反常见物理定律场景下的推理能力。
实验表明，LMMs在归纳物理推理方面表现不佳，易受语言偏差影响，且对视觉输入的信任度存疑。

📝 摘要（中文）

大型多模态模型(LMMs)将训练中观察到的通用物理定律（如动量守恒）编码为参数知识。这使得LMMs能够回答物理推理问题，例如从视觉输入预测潜在碰撞事件的结果。然而，由于参数知识仅包含训练期间看到的物理定律，因此当推理场景违反这些物理定律时，它不足以进行推理。相比之下，人类具备根据少量视觉示例将物理推理适应于未见过的物理环境的技能。这种能力，我们称之为归纳物理推理，对于LMMs在安全关键应用中取代人类至关重要。尽管其重要性，现有的视觉基准仅评估LMMs中的参数知识，而非归纳物理推理。为此，我们提出了InPhyRe，这是第一个用于衡量LMMs中归纳物理推理的视觉问答基准。InPhyRe评估LMMs在算法生成的合成碰撞视频中预测碰撞事件结果的能力。通过检查13个LMMs，InPhyRe告诉我们，(1)LMMs难以将关于通用物理定律的有限参数知识应用于推理，(2)当演示样本违反通用物理定律时，LMMs中的归纳物理推理较弱，以及(3)LMMs中的归纳物理推理受到语言偏差的影响，并且在很大程度上忽略了视觉输入，质疑了LMMs关于视觉输入的可信度。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型(LMMs)在归纳物理推理方面的不足。现有方法主要评估LMMs在训练数据中学习到的参数知识，而忽略了其在面对新物理环境时的适应能力。这种不足限制了LMMs在安全关键领域的应用，因为真实世界场景往往包含未知的物理规则。

核心思路：论文的核心思路是构建一个专门用于评估LMMs归纳物理推理能力的基准数据集。通过设计算法生成合成碰撞视频，并控制视频中物理规则的改变，来考察LMMs在面对违反常见物理定律的场景时的推理表现。这种方法能够更全面地评估LMMs的泛化能力。

技术框架：InPhyRe基准包含一系列算法生成的合成碰撞视频，每个视频都包含不同数量和类型的物体，以及不同的碰撞场景。每个视频都配有相应的问答对，用于评估LMMs对碰撞结果的预测能力。基准测试流程包括：1) 向LMMs展示包含特定物理规则的演示视频；2) 向LMMs提出关于后续碰撞事件的问题；3) 评估LMMs的回答准确性。

关键创新：InPhyRe的关键创新在于其专注于评估LMMs的归纳物理推理能力，而非仅仅是参数知识。通过算法生成合成数据，可以灵活控制物理规则的变化，从而更全面地评估LMMs的泛化能力。此外，InPhyRe还揭示了LMMs在归纳物理推理中存在的语言偏差问题。

关键设计：InPhyRe使用算法生成碰撞视频，可以控制物体的数量、形状、质量、速度等参数，以及碰撞的类型（弹性碰撞、非弹性碰撞等）。问答对的设计涵盖了对碰撞结果的多种预测，例如物体最终的位置、速度、方向等。论文还设计了不同的实验设置，以评估LMMs在不同程度的物理规则变化下的表现。

🖼️ 关键图片

📊 实验亮点

InPhyRe基准测试了13个LMMs，结果表明这些模型在归纳物理推理方面表现不佳。当演示样本违反通用物理定律时，LMMs的推理能力显著下降。此外，实验还发现LMMs存在严重的语言偏差，在很大程度上忽略了视觉输入，这表明LMMs在视觉理解方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于提升机器人、自动驾驶等领域中智能体的环境适应性和安全性。通过更全面地评估和改进LMMs的归纳物理推理能力，可以使其在复杂和未知的环境中做出更可靠的决策，从而降低事故风险。此外，该基准的提出也将推动多模态学习领域对模型泛化能力的研究。

📄 摘要（原文）

Large multimodal models (LMMs) encode universal physical laws observed during training, such as momentum conservation, as parametric knowledge. It allows LMMs to answer physical reasoning queries, such as the outcome of a potential collision event from visual input. However, since parametric knowledge includes only the physical laws seen during training, it is insufficient for reasoning when the inference scenario violates these physical laws. In contrast, humans possess the skill to adapt their physical reasoning to unseen physical environments from a few visual examples. This ability, which we refer to as inductive physical reasoning, is indispensable for LMMs if they are to replace human agents in safety-critical applications. Despite its importance, existing visual benchmarks evaluate only the parametric knowledge in LMMs, and not inductive physical reasoning. To this end, we propose InPhyRe, the first visual question answering benchmark to measure inductive physical reasoning in LMMs. InPhyRe evaluates LMMs on their ability to predict the outcome of collision events in algorithmically generated synthetic collision videos. By inspecting 13 LMMs, InPhyRe informs us that (1) LMMs struggle to apply their limited parametric knowledge about universal physical laws to reasoning, (2) inductive physical reasoning in LMMs is weak when demonstration samples violate universal physical laws, and (3) inductive physical reasoning in LMMs suffers from language bias and largely ignores the visual inputs, questioning the trustworthiness of LMMs regarding visual inputs.

InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理