WorldMark: A Unified Benchmark Suite for Interactive Video World Models
作者: Xiaojie Xu, Zhengyuan Lin, Kang He, Yukang Feng, Xiaofeng Mao, Yuanyang Yin, Kaipeng Zhang, Yongtao Ge
分类: cs.CV
发布日期: 2026-04-23
💡 一句话要点
WorldMark:统一交互式视频世界模型评测基准,实现公平模型对比
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 交互式视频生成 世界模型 评测基准 动作映射 分层测试 视觉质量评估 控制对齐 在线竞技平台
📋 核心要点
- 现有交互式视频世界模型缺乏统一评测标准,模型间难以公平比较,阻碍了领域发展。
- WorldMark提出统一的动作映射层和分层测试套件,为不同模型提供相同的测试环境和控制接口。
- 该基准包含视觉质量、控制对齐和世界一致性等模块化评估工具,并提供在线竞技平台。
📝 摘要(中文)
交互式视频生成模型,如Genie、YUME、HY-World和Matrix-Game等,发展迅速。然而,每个模型都在其私有场景和轨迹上进行评估,导致无法进行公平的跨模型比较。现有的公共基准提供了一些有用的指标,如轨迹误差、美学评分和基于VLM的判断,但缺乏标准化测试条件——相同的场景、相同的动作序列和统一的控制接口——这对于在具有异构输入的模型之间进行指标比较至关重要。我们推出了WorldMark,这是第一个为交互式图像到视频世界模型提供通用平台的基准。WorldMark贡献包括:(1)一个统一的动作映射层,将共享的WASD风格动作词汇转换为每个模型的原生控制格式,从而能够在相同的场景和轨迹上对六个主要模型进行公平比较;(2)一个分层测试套件,包含500个评估案例,涵盖第一人称和第三人称视角、逼真和风格化场景,以及从易到难的三个难度等级,时间跨度为20-60秒;(3)一个模块化评估工具包,用于视觉质量、控制对齐和世界一致性,旨在让研究人员可以重用我们的标准化输入,同时插入他们自己的指标,随着领域的发展。我们将发布所有数据、评估代码和模型输出,以促进未来的研究。除了离线指标外,我们还推出了World Model Arena (warena.ai),一个在线平台,任何人都可以将领先的世界模型进行正面交锋,并观看实时排行榜。
🔬 方法详解
问题定义:目前交互式视频世界模型发展迅速,但缺乏统一的评测标准。每个模型都在自己的私有数据集和场景下进行评估,导致无法公平地比较不同模型之间的性能优劣。现有公共基准虽然提供了一些评估指标,但缺乏标准化的测试条件,例如相同的场景、动作序列和控制接口,使得跨模型比较变得困难。
核心思路:WorldMark的核心思路是提供一个统一的评测平台,为不同的交互式视频世界模型提供相同的测试环境和控制接口。通过统一的动作映射层,将通用的动作指令转换为每个模型特定的控制格式,从而实现对不同模型的公平比较。同时,提供分层测试套件,覆盖不同的场景、视角和难度等级,全面评估模型的性能。
技术框架:WorldMark主要包含三个组成部分:统一动作映射层、分层测试套件和模块化评估工具包。统一动作映射层负责将通用的WASD风格动作指令转换为每个模型特定的控制格式。分层测试套件包含500个评估案例,涵盖第一人称和第三人称视角、逼真和风格化场景,以及从易到难的三个难度等级。模块化评估工具包用于评估视觉质量、控制对齐和世界一致性。此外,还提供了一个在线竞技平台World Model Arena,供用户在线比较不同模型的性能。
关键创新:WorldMark的关键创新在于提供了一个统一的、标准化的评测平台,解决了交互式视频世界模型领域缺乏公平比较基准的问题。通过统一的动作映射层和分层测试套件,实现了对不同模型的公平比较。模块化评估工具包的设计使得研究人员可以方便地添加自定义的评估指标,从而适应领域的发展。
关键设计:统一动作映射层的设计需要考虑不同模型的控制接口差异,选择合适的映射方法以保证动作的准确执行。分层测试套件的设计需要覆盖不同的场景、视角和难度等级,以全面评估模型的性能。模块化评估工具包的设计需要保证灵活性和可扩展性,方便研究人员添加自定义的评估指标。具体参数设置、损失函数和网络结构等技术细节取决于被评估模型的具体实现。
🖼️ 关键图片
📊 实验亮点
WorldMark在六个主流交互式视频世界模型上进行了评估,通过统一的动作映射层和分层测试套件,实现了公平的跨模型比较。实验结果表明,不同模型在视觉质量、控制对齐和世界一致性等方面存在显著差异。该基准的发布将促进该领域的研究和发展。
🎯 应用场景
WorldMark可用于评估和比较不同的交互式视频世界模型,推动该领域的发展。该基准可应用于游戏开发、虚拟现实、机器人控制等领域,帮助开发者选择合适的模型,并优化模型的性能。此外,World Model Arena在线平台可以促进模型之间的竞争和创新。
📄 摘要(原文)
Interactive video generation models such as Genie, YUME, HY-World, and Matrix-Game are advancing rapidly, yet every model is evaluated on its own benchmark with private scenes and trajectories, making fair cross-model comparison impossible. Existing public benchmarks offer useful metrics such as trajectory error, aesthetic scores, and VLM-based judgments, but none supplies the standardized test conditions -- identical scenes, identical action sequences, and a unified control interface -- needed to make those metrics comparable across models with heterogeneous inputs. We introduce WorldMark, the first benchmark that provides such a common playing field for interactive Image-to-Video world models. WorldMark contributes: (1) a unified action-mapping layer that translates a shared WASD-style action vocabulary into each model's native control format, enabling apples-to-apples comparison across six major models on identical scenes and trajectories; (2) a hierarchical test suite of 500 evaluation cases covering first- and third-person viewpoints, photorealistic and stylized scenes, and three difficulty tiers from Easy to Hard spanning 20-60s; and (3) a modular evaluation toolkit for Visual Quality, Control Alignment, and World Consistency, designed so that researchers can reuse our standardized inputs while plugging in their own metrics as the field evolves. We will release all data, evaluation code, and model outputs to facilitate future research. Beyond offline metrics, we launch World Model Arena (warena.ai), an online platform where anyone can pit leading world models against each other in side-by-side battles and watch the live leaderboard.