Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

📄 arXiv: 2603.22212v1 📥 PDF

作者: Meiqi Wu, Zhixin Cai, Fufangchen Zhao, Xiaokun Feng, Rujing Dang, Bingze Song, Ruitian Tian, Jiashu Zhu, Jiachen Lei, Hao Dou, Jing Tang, Lei Sun, Jiahong Wu, Xiangxiang Chu, Zeming Liu, Kaiqi Huang

分类: cs.CV

发布日期: 2026-03-23


💡 一句话要点

Omni-WorldBench:面向交互中心的世界模型综合评估基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 交互响应 评估基准 4D生成 因果关系

📋 核心要点

  1. 现有世界模型评估侧重视觉效果和文本对齐,忽略了时间动态和交互响应能力。
  2. Omni-WorldBench旨在评估世界模型在4D场景中对交互动作的响应能力,关注因果关系。
  3. 通过Omni-WorldSuite和Omni-Metrics,全面评估了18个世界模型,揭示了现有模型的不足。

📝 摘要(中文)

基于视频的世界模型已经涌现出两种主要范式:视频生成和3D重建。然而,现有的评估基准要么狭隘地关注生成模型的视觉保真度和文本-视频对齐,要么依赖于静态的3D重建指标,而这些指标从根本上忽略了时间动态。我们认为,世界模型的未来在于4D生成,它联合建模空间结构和时间演化。在这种范式中,核心能力是交互响应:忠实地反映交互动作如何驱动跨空间和时间的状态转换的能力。然而,目前还没有基准系统地评估这个关键维度。为了弥补这一差距,我们提出了Omni-WorldBench,这是一个专门为评估世界模型在4D设置中的交互响应能力而设计的综合基准。Omni-WorldBench包含两个关键组件:Omni-WorldSuite,一个涵盖不同交互级别和场景类型的系统提示套件;以及Omni-Metrics,一个基于代理的评估框架,通过测量交互动作对最终结果和中间状态演化轨迹的因果影响来量化世界建模能力。我们对18个具有代表性的世界模型进行了广泛的评估。我们的分析揭示了当前世界模型在交互响应方面的关键局限性,为未来的研究提供了可操作的见解。Omni-WorldBench将公开发布,以促进交互式4D世界建模的进展。

🔬 方法详解

问题定义:现有世界模型评估基准主要关注视觉保真度和文本-视频对齐,或者依赖静态3D重建指标,忽略了世界模型在交互环境下的动态响应能力,无法有效评估模型对交互动作的理解和预测能力。现有方法缺乏对交互动作如何影响状态转换的系统评估。

核心思路:Omni-WorldBench的核心思路是构建一个综合性的评估框架,通过模拟交互动作并测量其对环境状态的影响,来量化世界模型的交互响应能力。该框架关注交互动作与状态变化之间的因果关系,从而更全面地评估世界模型的性能。

技术框架:Omni-WorldBench包含两个主要组件:Omni-WorldSuite和Omni-Metrics。Omni-WorldSuite是一个系统提示套件,涵盖了不同交互级别和场景类型,用于生成各种交互场景。Omni-Metrics是一个基于代理的评估框架,通过测量交互动作对最终结果和中间状态演化轨迹的因果影响来量化世界建模能力。该框架使用agent在模拟环境中执行动作,并评估模型预测的状态与实际状态之间的差异。

关键创新:Omni-WorldBench的关键创新在于其以交互为中心的评估方法,它不仅关注视觉效果,更关注模型对交互动作的理解和预测能力。通过引入Omni-WorldSuite和Omni-Metrics,该基准能够全面评估世界模型在4D交互环境下的性能。此外,该基准还强调了对交互动作与状态变化之间因果关系的量化。

关键设计:Omni-WorldSuite包含了多种交互场景,涵盖了不同难度级别和交互类型。Omni-Metrics使用基于代理的评估方法,通过设计合适的奖励函数和状态表示,来量化交互动作对环境的影响。具体的参数设置和网络结构取决于被评估的世界模型,Omni-WorldBench提供了一个通用的评估框架,可以适用于不同的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Omni-WorldBench对18个代表性世界模型进行了评估,揭示了现有模型在交互响应方面的局限性。评估结果表明,现有模型在处理复杂交互场景和预测长期状态变化方面存在不足。该基准的发布将为未来的研究提供重要的参考,并促进交互式世界模型的改进。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过更准确地评估和提升世界模型的交互响应能力,可以使智能体更好地理解和预测环境变化,从而实现更智能、更可靠的决策和控制。未来,该基准可以促进交互式世界模型的进一步发展,推动相关技术的应用。

📄 摘要(原文)

Video--based world models have emerged along two dominant paradigms: video generation and 3D reconstruction. However, existing evaluation benchmarks either focus narrowly on visual fidelity and text--video alignment for generative models, or rely on static 3D reconstruction metrics that fundamentally neglect temporal dynamics. We argue that the future of world modeling lies in 4D generation, which jointly models spatial structure and temporal evolution. In this paradigm, the core capability is interactive response: the ability to faithfully reflect how interaction actions drive state transitions across space and time. Yet no existing benchmark systematically evaluates this critical dimension. To address this gap, we propose Omni--WorldBench, a comprehensive benchmark specifically designed to evaluate the interactive response capabilities of world models in 4D settings. Omni--WorldBench comprises two key components: Omni--WorldSuite, a systematic prompt suite spanning diverse interaction levels and scene types; and Omni--Metrics, an agent-based evaluation framework that quantifies world modeling capabilities by measuring the causal impact of interaction actions on both final outcomes and intermediate state evolution trajectories. We conduct extensive evaluations of 18 representative world models across multiple paradigms. Our analysis reveals critical limitations of current world models in interactive response, providing actionable insights for future research. Omni-WorldBench will be publicly released to foster progress in interactive 4D world modeling.