LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
作者: Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini
分类: cs.CV, cs.AI
发布日期: 2025-10-13 (更新: 2025-11-25)
备注: 22 pages, 9 figures
期刊: ICLR 2026
💡 一句话要点
LikePhys:通过似然偏好评估视频扩散模型中的直观物理理解能力
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 视频扩散模型 直观物理 物理合理性 似然偏好 评估指标
📋 核心要点
- 现有视频生成模型难以准确评估其对直观物理的理解能力,因为视觉外观会干扰对物理合理性的判断。
- LikePhys通过比较模型对物理有效和无效视频的似然偏好,无需训练即可评估模型对物理世界的理解。
- 实验表明,LikePhys提出的合理性偏好误差(PPE)指标与人类感知高度一致,优于现有评估方法。
📝 摘要(中文)
视频扩散模型中的直观物理理解能力对于构建通用的、物理上合理的现实世界模拟器至关重要。然而,由于难以区分生成结果中的物理正确性和视觉外观,准确评估这种能力仍然是一个挑战。为此,我们引入了LikePhys,这是一种无需训练的方法,它通过使用去噪目标作为基于ELBO的似然代理,区分物理上有效和无效的视频,从而评估视频扩散模型中的直观物理。通过在我们构建的包含四个物理领域中十二个场景的基准上进行测试,我们表明我们的评估指标,合理性偏好误差(PPE),表现出与人类偏好很强的一致性,优于最先进的评估器基线。然后,我们系统地评估了当前视频扩散模型中的直观物理理解能力。我们的研究进一步分析了模型设计和推理设置如何影响直观物理理解,并强调了跨物理定律的领域特定能力差异。实证结果表明,尽管当前模型在复杂和混沌动力学方面存在困难,但随着模型容量和推理设置的扩展,物理理解能力有明显的提高趋势。
🔬 方法详解
问题定义:现有视频扩散模型在生成视频时,难以保证其物理合理性,即生成的视频是否符合基本的物理定律。评估模型对直观物理的理解能力是一个挑战,因为视觉效果可能会掩盖物理上的不合理性。现有的评估方法往往需要额外的训练或者难以区分物理合理性和视觉逼真度。
核心思路:LikePhys的核心思想是利用视频扩散模型的去噪过程来估计视频的似然。如果模型认为一个视频是物理上合理的,那么它应该更容易被去噪,从而具有更高的似然。通过比较模型对物理有效和无效视频的似然偏好,可以推断模型对物理世界的理解程度。
技术框架:LikePhys方法主要包含以下几个步骤:1)构建包含物理有效和无效视频对的数据集。2)使用视频扩散模型对视频进行去噪,并计算其似然估计。3)计算合理性偏好误差(PPE),即模型对无效视频的似然高于有效视频的比例。PPE越低,表明模型对物理世界的理解越好。
关键创新:LikePhys的关键创新在于提出了一种无需训练的评估方法,它直接利用视频扩散模型的内部机制(去噪过程)来评估其对物理世界的理解。这种方法避免了额外的训练成本,并且能够更准确地评估模型对物理合理性的判断能力。
关键设计:LikePhys使用基于ELBO(Evidence Lower Bound)的似然代理,通过去噪过程来估计视频的似然。具体来说,它利用扩散模型的reverse process,将噪声逐渐去除,并计算每一步的概率密度。最终的似然估计是所有步骤概率密度的乘积。此外,LikePhys还设计了合理性偏好误差(PPE)作为评估指标,它能够量化模型对物理有效和无效视频的偏好程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LikePhys提出的PPE指标与人类偏好高度一致,能够有效评估视频扩散模型的物理理解能力。与其他评估方法相比,LikePhys在多个物理场景中都取得了更好的性能。研究还发现,随着模型容量和推理步数的增加,视频扩散模型的物理理解能力会得到提升。
🎯 应用场景
该研究成果可应用于提升视频生成模型的物理合理性,从而生成更逼真、更可信的视频内容。此外,该方法还可用于评估和比较不同视频生成模型的物理理解能力,指导模型设计和训练。在机器人、自动驾驶等领域,对物理世界的准确理解至关重要,该研究有助于提升这些系统的智能化水平。
📄 摘要(原文)
Intuitive physics understanding in video diffusion models plays an essential role in building general-purpose physically plausible world simulators, yet accurately evaluating such capacity remains a challenging task due to the difficulty in disentangling physics correctness from visual appearance in generation. To the end, we introduce LikePhys, a training-free method that evaluates intuitive physics in video diffusion models by distinguishing physically valid and impossible videos using the denoising objective as an ELBO-based likelihood surrogate on a curated dataset of valid-invalid pairs. By testing on our constructed benchmark of twelve scenarios spanning over four physics domains, we show that our evaluation metric, Plausibility Preference Error (PPE), demonstrates strong alignment with human preference, outperforming state-of-the-art evaluator baselines. We then systematically benchmark intuitive physics understanding in current video diffusion models. Our study further analyses how model design and inference settings affect intuitive physics understanding and highlights domain-specific capacity variations across physical laws. Empirical results show that, despite current models struggling with complex and chaotic dynamics, there is a clear trend of improvement in physics understanding as model capacity and inference settings scale.