WorldOlympiad: Can Your World Model Survive a Triathlon?

📄 arXiv: 2606.11129v1 📥 PDF

作者: Yuke Zhao, Wangbo Zhao, Weijie Wang, Zeyu Zhang, Dakai An, Akide Liu, Yinghao Yu, Jiasheng Tang, Fan Wang, Wei Wang, Bohan Zhuang

分类: cs.CV

发布日期: 2026-06-09

备注: Project Page: https://alibaba-damo-academy.github.io/WorldOlympiad/, Code: https://github.com/alibaba-damo-academy/WorldOlympiad


💡 一句话要点

提出WorldOlympiad以解决视频生成模型评估不足问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频生成 物理真实性 几何一致性 交互保真度 评估基准 长视频理解 机器人技术

📋 核心要点

  1. 现有视频生成模型评估方法主要关注视觉质量,缺乏对物理规则和长时间交互的深入分析。
  2. WorldOlympiad通过物理、几何和交互三个维度对世界模型进行全面评估,填补了现有方法的空白。
  3. 实验结果显示,当前最先进的模型在物理推理、三维一致性和长时间交互方面存在显著差距,强调了结构化评估协议的必要性。

📝 摘要(中文)

我们介绍了WorldOlympiad,这是一个用于诊断视频生成世界模型的基准,涵盖物理真实性、几何一致性和交互保真度。现有基准往往侧重于视觉质量、语义对齐或短期时间一致性,无法深入评估生成视频是否遵循物理规则、保持一致的三维结构以及在长时间范围内维持可控交互。为了解决这一问题,WorldOlympiad将世界模型评估分解为三个互补维度,涵盖了游戏、机器人和一般现实视频等三个主要下游场景,形成了一个可扩展且可解释的评估套件,揭示了超越通用视频质量的失败模式。

🔬 方法详解

问题定义:论文旨在解决现有视频生成模型评估方法在物理真实性、几何一致性和交互保真度方面的不足,现有方法往往无法有效评估生成视频是否遵循物理规则和维持长时间的交互。

核心思路:WorldOlympiad通过将评估分解为物理、几何和交互三个维度,提供了一种更全面的评估框架,旨在揭示生成模型的潜在缺陷。

技术框架:整体架构包括三个主要模块:物理轨道(评估物理规则遵循情况)、几何轨道(重建视频并评估结构一致性)和交互轨道(评估生成视频的交互能力)。

关键创新:最重要的创新在于将评估标准细分为三个互补维度,尤其是引入了MLLM作为评判工具,能够更好地评估物理现象和交互的复杂性。

关键设计:在物理轨道中使用对象分割和MLLM评估;几何轨道采用高斯喷溅重建技术;交互轨道则关注复杂动作提示的遵循和视频片段之间的平滑过渡。具体参数和损失函数设计在论文中详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的模型在物理推理、三维一致性和长时间交互方面存在显著差距,具体表现为在物理轨道上评分低于预期,强调了需要更结构化的评估协议以提升生成模型的能力。

🎯 应用场景

该研究的潜在应用领域包括游戏开发、机器人控制和现实视频生成等。通过提供更全面的评估标准,WorldOlympiad能够帮助研究人员和开发者更好地理解和改进视频生成模型的性能,推动相关技术的进步。

📄 摘要(原文)

We introduce WorldOlympiad, a benchmark for diagnosing video-based world models across physical faithfulness, geometric consistency, and interaction fidelity. While existing benchmarks often focus on visual quality, semantic alignment, or short-term temporal coherence, they provide limited insight into whether generated videos obey physical rules, preserve coherent 3D structure, and sustain controllable interactions over long horizons. To address this gap, WorldOlympiad decomposes world-model evaluation into three complementary dimensions. The physical track uses object segmentation and MLLM-as-judge to assess whether generated videos follow interpretable rules in mechanics, thermal phenomena, and material properties. The geometry track reconstructs generated videos with Gaussian splatting and evaluates structural consistency, cross-view coherence, and camera-trajectory alignment. The interaction track assesses whether generated rollouts follow complex action prompts and maintain smooth, coherent transitions across consecutive video chunks. WorldOlympiad further covers three major downstream scenarios, including gaming, robotics, and general real-world videos, capturing diverse challenges from interactive control and embodied manipulation to open-domain motion and camera dynamics. Together, these tracks and scenarios form a scalable and interpretable evaluation suite that exposes failure modes beyond generic video quality. Experiments on state-of-the-art models reveal substantial gaps in physical reasoning, 3D consistency, and long-horizon interaction, underscoring the need for more structured evaluation protocols for generative world models.