WorldModelBench: Judging Video Generation Models As World Models

作者: Dacheng Li, Yunhao Fang, Yukang Chen, Shuo Yang, Shiyi Cao, Justin Wong, Michael Luo, Xiaolong Wang, Hongxu Yin, Joseph E. Gonzalez, Ion Stoica, Song Han, Yao Lu

分类: cs.CV, cs.AI

发布日期: 2025-02-28

💡 一句话要点

提出WorldModelBench，用于评估视频生成模型作为世界模型的性能，尤其关注物理规律遵循。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成模型 世界模型 评测基准 物理规律遵循 指令遵循 机器人 自动驾驶

📋 核心要点

现有视频生成模型评测基准侧重于视频质量，忽略了物理规律等世界模型关键因素，无法有效评估其在决策应用中的能力。
WorldModelBench通过引入指令遵循和物理规律遵循维度，能够检测到传统基准忽略的细微世界建模违规行为。
该研究利用6.7万人工标注微调判别器，自动化评估流程，并证明了对齐人类标注的训练能显著提升世界建模能力。

📝 摘要（中文）

视频生成模型发展迅速，逐渐被视为能够支持机器人和自动驾驶等决策应用的世界模型。然而，现有的评测基准未能严格评估这些模型的性能，仅关注视频质量，忽略了物理规律遵循等世界模型的重要因素。为了弥补这一差距，我们提出了WorldModelBench，旨在评估视频生成模型在应用驱动领域的世界建模能力。WorldModelBench具有两个关键优势：(1) 能够检测细微的世界建模违规行为：通过纳入指令遵循和物理规律遵循维度，WorldModelBench能够检测到细微的违规行为，例如违反质量守恒定律的物体尺寸不规则变化，这些问题被之前的基准所忽略。(2) 与大规模人类偏好对齐：我们众包了6.7万个人工标注，以准确衡量14个前沿模型。利用高质量的人工标注，我们进一步微调了一个精确的判别器来自动化评估过程，在预测世界建模违规行为方面的平均准确率比具有20亿参数的GPT-4o高8.6%。此外，我们证明了通过最大化判别器的奖励来训练模型，可以显著提高世界建模能力。该网站可在https://worldmodelbench-team.github.io访问。

🔬 方法详解

问题定义：论文旨在解决现有视频生成模型评测基准无法有效评估模型作为世界模型能力的问题。现有基准主要关注视频质量，忽略了模型对物理规律的遵循程度，这对于机器人、自动驾驶等需要与环境交互的应用至关重要。因此，需要一个更全面的基准来评估视频生成模型的世界建模能力。

核心思路：论文的核心思路是构建一个更贴近实际应用场景的评测基准，该基准不仅关注视频的视觉质量，更重要的是评估模型是否能够生成符合物理规律和指令的视频。通过引入指令遵循和物理规律遵循两个维度，可以更全面地评估模型的世界建模能力。

技术框架：WorldModelBench包含以下主要组成部分：1) 数据集：包含各种应用驱动场景的视频数据，并标注了指令和物理规律相关的信息。2) 评估指标：包括视频质量指标、指令遵循指标和物理规律遵循指标。3) 判别器：一个经过人工标注数据微调的判别器，用于自动评估视频是否符合指令和物理规律。4) 训练流程：通过最大化判别器的奖励来训练视频生成模型，使其更好地对齐人类偏好。

关键创新：该论文的关键创新在于提出了一个更全面的视频生成模型评测基准，该基准不仅关注视频质量，更重要的是评估模型是否能够生成符合物理规律和指令的视频。此外，通过引入人工标注数据微调判别器，可以更准确地评估模型的世界建模能力。

关键设计：论文的关键设计包括：1) 指令遵循指标：用于评估模型生成的视频是否符合给定的指令。2) 物理规律遵循指标：用于评估模型生成的视频是否符合物理规律，例如质量守恒定律。3) 判别器结构：使用Transformer结构，输入为视频帧序列，输出为视频是否符合指令和物理规律的概率。4) 损失函数：使用二元交叉熵损失函数，用于训练判别器。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WorldModelBench能够有效评估视频生成模型的世界建模能力。经过人工标注数据微调的判别器，在预测世界建模违规行为方面的平均准确率比具有20亿参数的GPT-4o高8.6%。此外，通过最大化判别器的奖励来训练视频生成模型，可以显著提高其世界建模能力。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、游戏等领域。通过使用WorldModelBench评估和优化视频生成模型，可以提高这些模型在实际应用中的性能和可靠性，例如，可以训练出更逼真的游戏场景，或使自动驾驶系统更好地理解和预测周围环境。

📄 摘要（原文）

Video generation models have rapidly progressed, positioning themselves as video world models capable of supporting decision-making applications like robotics and autonomous driving. However, current benchmarks fail to rigorously evaluate these claims, focusing only on general video quality, ignoring important factors to world models such as physics adherence. To bridge this gap, we propose WorldModelBench, a benchmark designed to evaluate the world modeling capabilities of video generation models in application-driven domains. WorldModelBench offers two key advantages: (1) Against to nuanced world modeling violations: By incorporating instruction-following and physics-adherence dimensions, WorldModelBench detects subtle violations, such as irregular changes in object size that breach the mass conservation law - issues overlooked by prior benchmarks. (2) Aligned with large-scale human preferences: We crowd-source 67K human labels to accurately measure 14 frontier models. Using our high-quality human labels, we further fine-tune an accurate judger to automate the evaluation procedure, achieving 8.6% higher average accuracy in predicting world modeling violations than GPT-4o with 2B parameters. In addition, we demonstrate that training to align human annotations by maximizing the rewards from the judger noticeably improve the world modeling capability. The website is available at https://worldmodelbench-team.github.io.

WorldModelBench: Judging Video Generation Models As World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理