YoCausal: How Far is Video Generation from World Model? A Causality Perspective

作者: You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang

分类: cs.CV

发布日期: 2026-05-28

备注: Project page: https://www.youzhexie.me/papers/YoCausal/index.html

💡 一句话要点

YoCausal：从因果关系视角评估视频生成模型与世界模型的差距

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频生成模型 因果推理 世界模型 违反期望 时间箭头

📋 核心要点

现有视频生成模型评估benchmark依赖合成数据，存在与真实世界数据分布的差异，限制了模型在真实场景下的泛化能力。
YoCausal通过时间反转真实视频构建counterfactual样本，提出双层评估体系，分别评估模型的时间箭头感知和因果认知能力。
实验结果表明，现有视频生成模型在时间箭头感知方面表现较好，但在因果认知方面与人类水平存在显著差距。

📝 摘要（中文）

随着视频扩散模型(VDMs)向世界模型发展，一个关键问题出现：它们是否真正理解因果关系，还是仅仅过度拟合了统计时间模式？现有基准主要依赖于合成数据，由于sim-to-real差距，限制了真实世界的泛化能力。我们提出了YoCausal，一个受认知科学中违反期望(VoE)范式启发的双层基准。通过以零成本时间反转真实世界视频作为自然的counterfactual样本，YoCausal建立了一个任意可扩展的评估协议。第一层引入了反转惊讶指数(RSI)，通过去噪损失量化时间箭头感知。第二层引入了因果认知指数(CCI)，它利用VLM将数据集分层为因果和非因果子集，从而将真正的因果推理与时间偏差分离。对13个最先进的VDM的评估表明，感知时间箭头并不意味着理解因果关系，并且相对于人类水平的因果认知仍然存在显著差距。

🔬 方法详解

问题定义：现有视频生成模型评估benchmark主要依赖合成数据，无法有效评估模型在真实世界场景下的因果推理能力。现有方法难以区分模型是真正理解了因果关系，还是仅仅学习了时间上的统计规律。

核心思路：YoCausal的核心思路是借鉴认知科学中的违反期望(VoE)范式，通过构建违反因果关系的counterfactual样本来评估模型是否真正理解因果关系。具体来说，通过时间反转真实视频，生成与真实世界因果关系相悖的样本，观察模型对这些样本的反应。

技术框架：YoCausal是一个双层评估体系。第一层，Reverse Surprise Index (RSI)，通过计算模型在原始视频和反转视频上的去噪损失差异，量化模型对时间箭头的感知能力。第二层，Causality Cognition Index (CCI)，利用视觉语言模型(VLM)将数据集划分为因果子集和非因果子集，然后评估模型在这些子集上的表现，从而区分模型的因果推理能力和时间偏差。

关键创新：YoCausal的关键创新在于：1) 使用时间反转真实视频作为counterfactual样本，避免了合成数据的sim-to-real差距；2) 提出了双层评估体系，能够分别评估模型的时间箭头感知和因果认知能力；3) 利用VLM对数据集进行因果分层，从而更好地评估模型的因果推理能力。

关键设计：RSI的计算基于视频扩散模型的去噪损失，损失越大表示模型越“惊讶”，即越认为该视频不符合时间顺序。CCI的计算依赖于VLM对视频因果关系的判断，通过比较模型在因果和非因果子集上的表现差异来评估因果认知能力。具体实现中，使用了CLIP作为VLM，并设计了特定的prompt来引导VLM进行因果判断。

🖼️ 关键图片

📊 实验亮点

对13个最先进的视频扩散模型进行了评估，结果表明，这些模型在时间箭头感知方面表现相对较好，但在因果认知方面与人类水平存在显著差距。例如，部分模型在RSI指标上表现良好，但在CCI指标上表现较差，表明它们可能只是学习了时间上的统计规律，而没有真正理解因果关系。

🎯 应用场景

YoCausal可用于评估和改进视频生成模型，使其更好地理解真实世界的因果关系。这对于开发更智能的机器人、自动驾驶系统和虚拟现实应用至关重要，这些应用都需要能够理解和预测真实世界中的事件。

📄 摘要（原文）

As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理