PhyGround: Benchmarking Physical Reasoning in Generative World Models

📄 arXiv: 2605.10806v1 📥 PDF

作者: Juyi Lin, Arash Akbari, Yumei He, Lin Zhao, Haichao Zhang, Arman Akbari, Xingchen Xu, Zoe Y. Lu, Enfu Nan, Hokin Deng, Edmund Yeh, Sarah Ostadabbas, Yun Fu, Jennifer Dy, Pu Zhao, Yanzhi Wang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-11

备注: Preprint. 56 pages, 39 figures, 40 tables. Project page: https://phyground.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PhyGround基准与PhyJudge模型,系统性评估生成式世界模型的物理推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 物理推理 世界模型 基准测试 视觉语言模型 物理一致性

📋 核心要点

  1. 现有物理评估基准存在评估粒度粗糙、人类标注偏差大以及自动化评估器缺乏物理感知能力等核心挑战。
  2. 提出PhyGround基准,通过13项物理定律分类与可观测子问题设计,实现对视频生成物理一致性的精细化诊断。
  3. 发布PhyJudge-9B专用评估模型,实验证明其在物理推理任务中的偏差显著优于主流商业模型,且具备高可审计性。

📝 摘要(中文)

生成式世界模型在视频生成领域应用日益广泛,但评估其是否遵循真实物理规律仍具挑战。现有基准存在评估框架粗糙、标注偏差及自动化评估器缺乏物理感知等问题。为此,本文提出了PhyGround,这是一个基于物理准则的视频生成物理推理评估基准。该基准包含250个精心设计的提示词,涵盖固体力学、流体力学和光学等13项物理定律,并将其细化为可观测的子问题以实现精细化诊断。通过大规模社会科学实验设计的人类标注研究,验证了该基准的有效性。此外,本文还发布了开源物理专用视觉语言模型PhyJudge-9B,其在物理推理任务中的相对偏差显著低于Gemini-3.1-Pro,为视频生成模型的物理一致性评估提供了可靠的自动化工具。

🔬 方法详解

问题定义:当前视频生成模型虽能生成视觉逼真的内容,但往往忽视物理规律。现有评估方法难以定位模型在特定物理定律(如重力、碰撞、流体)上的具体失效点,且缺乏标准化的评估范式。

核心思路:引入“准则驱动”的评估理念,将抽象的物理定律转化为可观测的视频行为指标。通过构建包含明确物理预期结果的提示词库,实现从定性到定量的物理推理能力评估。

技术框架:PhyGround包含三个核心部分:一是包含250个提示词的物理测试集,覆盖13类物理定律;二是基于社会科学实验设计的严谨人类标注流程,确保评估结果的可靠性;三是训练了PhyJudge-9B,作为专门用于物理一致性判定的视觉语言模型。

关键创新:PhyGround不仅是一个数据集,更是一套诊断框架。它通过将物理定律拆解为可观测的子问题,使得研究者能够精准定位模型在物理模拟上的短板,而非仅仅给出笼统的评分。

关键设计:PhyJudge-9B通过专门的物理领域数据进行微调,使其在处理物理现象时具备更强的逻辑推理能力。在评估中,该模型通过对比生成视频与预期物理结果的符合度,显著降低了传统VLM在物理判断上的幻觉与偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过459名标注者完成5,796次完整标注,数据质量极高,模型排名相关性(Spearman's rho)超过0.90。PhyJudge-9B在物理推理任务中表现卓越,其聚合相对偏差仅为3.3%,远低于Gemini-3.1-Pro的16.6%,证明了其在物理感知评估任务中的领先地位。

🎯 应用场景

该研究可广泛应用于视频生成模型的研发与迭代,帮助开发者精准定位模型在物理模拟方面的缺陷。此外,PhyJudge-9B可作为自动评测工具集成于视频生成工作流中,在自动驾驶仿真、机器人环境交互训练及影视特效生成等对物理一致性要求极高的领域具有重要应用价值。

📄 摘要(原文)

Generative world models are increasingly used for video generation, where learned simulators are expected to capture the physical rules that govern real-world dynamics. However, evaluating whether generated videos actually follow these rules remains challenging. Existing physics-focused video benchmarks have made important progress, but they still face three key challenges, including the coarse evaluation frameworks that hide law-specific failures, response biases and fatigue that undermine the validity of annotation judgments, and automated evaluators that are insufficiently physics-aware or difficult to audit. To address those challenges, we introduce PhyGround, a criteria-grounded benchmark for evaluating physical reasoning in video generation. The benchmark contains 250 curated prompts, each augmented with an expected physical outcome, and a taxonomy of 13 physical laws across solid-body mechanics, fluid dynamics, and optics. Each law is operationalized through observable sub-questions to enable per-law diagnostics. We evaluate eight modern video generation models through a large-scale, quality-controlled human study, grounded on social science lab experiment design. A total of 459 annotators provided 5,796 complete annotations and over 37.4K fine-grained labels; after quality control, the retained annotations exhibited high split-half model-ranking correlations (Spearman's rho > 0.90). To support reproducible automated evaluation, we release PhyJudge-9B, an open physics-specialized VLM judge. PhyJudge-9B achieves substantially lower aggregate relative bias than Gemini-3.1-Pro (3.3% vs. 16.6%). We release prompts, human annotations, model checkpoints, and evaluation code on the project page https://phyground.github.io/.