BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs

📄 arXiv: 2605.30900v1 📥 PDF

作者: Ben Wang, Xiaogang Li, Ruochen Gao, Peiyao Xiao, Chengliang Xu, Zeyu Wang, Zichao Chen, Bing Zhao, Hu Wei

分类: cs.AI, physics.app-ph

发布日期: 2026-05-29


💡 一句话要点

BilliardPhys-Bench:多模态LLM物理推理与视觉动力学评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 物理推理 视觉动力学 基准测试 台球模拟

📋 核心要点

  1. 多模态大语言模型在静态图像理解上表现出色,但在物理世界的动态推理能力上存在明显不足。
  2. 论文提出BilliardPhys-Bench基准,通过程序化生成的台球场景,评估模型在碰撞、反弹和最终位置预测方面的能力。
  3. 实验结果揭示了现有模型在复杂场景和长时间模拟下的性能下降,并发现模型存在“静止偏见”问题。

📝 摘要(中文)

当前的多模态模型在静态图像识别方面表现良好,但直观的物理推理仍然是一个弱点。对于这些系统来说,从单张图像预测物体的运动和交互仍然很困难。我们提出了BilliardPhys-Bench,这是一个用于合成台球环境中物理推理的基准。它的程序引擎生成具有摩擦和弹性碰撞的随机场景。该基准测试了三种能力:(1)预测球与球之间的碰撞,(2)推理墙壁反弹,以及(3)估计运动停止后的最终球的位置。我们评估了来自GPT、Claude、Gemini和Qwen系列的最新MLLM。性能随着模拟时间的增加和场景几何形状变得更加复杂而下降。我们还观察到一种一致的失效模式,我们称之为“静止偏见”:当正确的物理结果更难推断时,模型倾向于预测没有交互。这些发现表明了当前MLLM在视觉动力学方面的不足,并指出了在多模态架构中需要更好的物理归纳偏置。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在理解静态图像方面取得了显著进展,但它们在理解和预测物理世界的动态行为方面仍然存在困难。具体来说,从单个图像预测物体的运动轨迹、相互作用以及最终状态,对于这些模型来说是一个挑战。现有的方法缺乏足够的物理推理能力,难以准确预测复杂的物理现象。

核心思路:论文的核心思路是构建一个专门用于评估MLLM物理推理能力的基准测试环境。通过程序化生成具有随机性和可控性的台球场景,可以系统地测试模型在不同物理条件下的表现。这种方法能够有效地揭示模型在物理推理方面的弱点,并为未来的模型改进提供指导。

技术框架:BilliardPhys-Bench基准测试环境包含一个程序化台球场景生成器和一个评估框架。场景生成器可以随机生成不同数量的球、不同的初始位置和速度,以及不同的摩擦系数和弹性系数。评估框架则根据生成的场景,测试模型在三个方面的能力:球与球之间的碰撞预测、球与墙壁之间的反弹预测以及最终球的位置预测。整个流程包括:1) 生成随机台球场景;2) MLLM 接收场景图像并进行预测;3) 评估模块将模型的预测结果与真实物理模拟结果进行比较,计算性能指标。

关键创新:该论文的关键创新在于提出了一个专门用于评估MLLM物理推理能力的基准测试环境BilliardPhys-Bench。与现有的图像识别基准不同,BilliardPhys-Bench侧重于测试模型对物理规律的理解和应用能力。此外,论文还发现了一种新的失效模式,即“静止偏见”,这为未来的模型改进提供了新的方向。

关键设计:BilliardPhys-Bench 的关键设计包括:1) 程序化场景生成器,可以生成大量具有随机性和可控性的台球场景;2) 三个具体的物理推理任务,包括碰撞预测、反弹预测和最终位置预测;3) 评估指标,用于量化模型在不同任务上的表现。场景的复杂度通过增加球的数量和模拟时间来控制。没有特别提及损失函数或网络结构,因为该工作主要关注基准测试而非模型本身。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有MLLM在BilliardPhys-Bench上的性能随着模拟时间的增加和场景复杂度的提高而显著下降。例如,在长时间模拟和复杂场景下,模型的预测准确率低于50%。此外,实验还揭示了模型存在“静止偏见”,即当物理结果难以推断时,模型倾向于预测没有交互发生。这些结果表明,现有MLLM在物理推理方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于提升机器人、自动驾驶等领域中智能体的环境感知和决策能力。通过提高模型对物理世界的理解和预测能力,可以使智能体更好地适应复杂环境,并做出更安全、更有效的决策。此外,该基准测试环境可以促进多模态大语言模型在物理推理方面的研究进展。

📄 摘要(原文)

Current multimodal models handle static image recognition well, but intuitive physical reasoning remains a weakness. Predicting how objects will move and interact from a single image is still difficult for these systems. We present BilliardPhys-Bench, a benchmark for physical reasoning in synthetic billiards environments. Its procedural engine generates randomized scenarios with friction and elastic collisions. The benchmark tests three abilities: (1) predicting ball-to-ball collisions, (2) reasoning about wall bounces, and (3) estimating final ball positions after motion stops. We evaluate recent MLLMs from the GPT, Claude, Gemini, and Qwen families. Performance drops as simulation time increases and scene geometry grows more complex. We also observe a consistent failure mode we call "stasis bias": when the correct physical outcome is harder to infer, models tend to predict no interaction. These findings show where current MLLMs break down on visual dynamics and point toward the need for better physical inductive biases in multimodal architectures.