Quantitative Video World Model Evaluation for Geometric-Consistency

作者: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou

分类: cs.CV, cs.AI

发布日期: 2026-05-14

备注: 12 pages, 5 figures. Project page : https://pdi-bench.github.io/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出PDI-Bench，用于量化评估视频生成模型在几何一致性方面的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting)

关键词: 视频生成模型 几何一致性 定量评估 世界模型 单目重建

📋 核心要点

现有视频评估方法依赖人工或学习评分器，主观且缺乏对几何错误的诊断能力。
PDI-Bench通过分割、点追踪和单目重建，将视频提升到3D空间，计算几何残差。
PDI揭示了现有视频生成器在几何一致性上的不足，并提供诊断信号，数据集已开源。

📝 摘要（中文）

生成式视频模型越来越多地被用作隐式的世界模型，但评估它们是否产生物理上合理的3D结构和运动仍然具有挑战性。现有的大多数视频评估流程严重依赖于人类判断或学习到的评分器，这可能具有主观性，并且对于几何错误缺乏诊断性。我们引入了PDI-Bench（透视畸变指数），这是一个用于审计生成视频中几何一致性的定量框架。给定一个生成的视频片段，我们通过分割和点跟踪（例如，SAM 2、MegaSaM 和 CoTracker3）获得以对象为中心的观测，通过单目重建将它们提升到3D世界空间坐标，并计算一组捕获三个失败维度的射影几何残差：尺度-深度对齐、3D运动一致性和3D结构刚性。为了支持系统评估，我们构建了PDI-Dataset，涵盖了旨在强调这些几何约束的各种场景。在最先进的视频生成器中，PDI揭示了一致的、特定于几何的失败模式，这些模式未被常见的感知指标捕获，并为物理基础视频生成和物理世界模型的发展提供了诊断信号。我们的代码和数据集可在 https://pdi-bench.github.io/ 找到。

🔬 方法详解

问题定义：现有视频生成模型的评估主要依赖于人工判断或学习的评分器，这些方法主观性强，且难以准确诊断模型在几何一致性方面的缺陷。例如，生成的视频可能存在尺度-深度不一致、3D运动不连贯、结构不刚性等问题，而这些问题难以通过传统的感知指标（如FID、IS等）有效捕捉。

核心思路：PDI-Bench的核心思路是通过将生成的视频片段转换为3D世界空间中的表示，然后计算一系列射影几何残差来量化评估其几何一致性。这种方法避免了主观的人工评估，并能够针对性地检测特定类型的几何错误。通过分析这些残差，可以深入了解视频生成模型在理解和模拟物理世界方面的能力。

技术框架：PDI-Bench的整体流程包括以下几个主要步骤：1) 对象分割与点追踪：利用现有的分割模型（如SAM 2、MegaSaM）和点追踪算法（如CoTracker3）从生成的视频中提取对象级别的观测信息。2) 单目3D重建：使用单目重建技术将2D观测提升到3D世界坐标系中。3) 几何残差计算：计算一系列射影几何残差，包括尺度-深度对齐残差、3D运动一致性残差和3D结构刚性残差。4) 性能评估：基于计算得到的几何残差，对视频生成模型的几何一致性进行量化评估。

关键创新：PDI-Bench的关键创新在于提出了一个完全定量的、基于几何约束的视频生成模型评估框架。与以往依赖人工或学习评分器的方法不同，PDI-Bench能够客观、准确地评估模型在几何一致性方面的性能，并提供针对性的诊断信息。此外，PDI-Dataset的构建也为系统评估视频生成模型的几何能力提供了数据基础。

关键设计：在几何残差计算方面，PDI-Bench设计了三种类型的残差来分别衡量尺度-深度对齐、3D运动一致性和3D结构刚性。尺度-深度对齐残差衡量的是场景中不同对象之间的尺度和深度关系是否合理；3D运动一致性残差衡量的是对象在连续帧之间的运动轨迹是否平滑、连贯；3D结构刚性残差衡量的是对象在运动过程中是否保持其固有的形状和结构。这些残差的设计充分考虑了物理世界的几何约束，能够有效地捕捉视频生成模型中的几何错误。

📊 实验亮点

实验结果表明，PDI-Bench能够有效揭示现有视频生成模型在几何一致性方面的不足，例如在尺度-深度对齐、3D运动一致性和3D结构刚性等方面存在的缺陷。PDI-Bench的评估结果与人工评估结果具有较高的一致性，但能够提供更细粒度的诊断信息。此外，实验还表明，PDI-Bench能够区分不同视频生成模型在几何一致性方面的性能差异。

🎯 应用场景

PDI-Bench可用于评估和改进各种视频生成模型，例如文本到视频模型、图像到视频模型等。该框架能够帮助研究人员更好地理解这些模型在模拟物理世界方面的能力，并指导模型的设计和训练，从而生成更逼真、更符合物理规律的视频内容。此外，PDI-Bench还可应用于机器人、自动驾驶等领域，用于评估和验证感知算法的性能。

📄 摘要（原文）

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.

Quantitative Video World Model Evaluation for Geometric-Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理