WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

📄 arXiv: 2603.23497v1 📥 PDF

作者: Zhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang

分类: cs.CV

发布日期: 2026-03-24

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出WildWorld:一个大规模动作条件动态世界建模数据集,用于生成式ARPG。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 动作条件 动态系统 视频生成 强化学习 状态估计 ARPG 数据集

📋 核心要点

  1. 现有数据集在动作空间的多样性和语义信息上存在不足,动作与像素级变化纠缠,阻碍了模型学习结构化世界动态。
  2. WildWorld数据集通过从AAA游戏中自动收集数据,提供大规模、多样化的动作空间和显式状态标注,以解决上述问题。
  3. WildBench评估结果表明,现有模型在建模语义丰富的动作和保持长期状态一致性方面仍面临挑战,需要进一步研究。

📝 摘要(中文)

动态系统理论和强化学习将世界演化视为由动作驱动的潜在状态动态,视觉观测提供关于状态的部分信息。最近的视频世界模型试图从数据中学习这种动作条件动态。然而,现有的数据集很少满足要求:它们通常缺乏多样且语义上有意义的动作空间,并且动作直接与视觉观测相关联,而不是由底层状态介导。因此,动作常常与像素级变化纠缠在一起,使得模型难以学习结构化的世界动态并保持长期一致的演化。本文提出了WildWorld,一个大规模的动作条件世界建模数据集,具有显式的状态标注,自动从照片级真实的AAA动作角色扮演游戏(怪物猎人:荒野)中收集。WildWorld包含超过1.08亿帧,并具有超过450个动作,包括移动、攻击和技能施放,以及同步的每帧角色骨骼、世界状态、相机姿态和深度图的标注。我们进一步推导出WildBench,通过动作跟随和状态对齐来评估模型。大量的实验揭示了在建模语义丰富的动作和保持长期状态一致性方面的持续挑战,突出了对状态感知视频生成的需求。

🔬 方法详解

问题定义:现有视频世界模型数据集缺乏足够多样和语义丰富的动作空间,动作与视觉观测直接关联,忽略了底层状态的介导作用。这导致模型难以学习结构化的世界动态,无法进行长期一致的演化。因此,需要一个包含大量动作和显式状态标注的数据集,以促进动作条件动态世界建模的研究。

核心思路:通过从AAA动作角色扮演游戏(Monster Hunter: Wilds)中自动收集数据,构建一个大规模的动作条件世界建模数据集。该数据集包含丰富的动作空间(超过450个动作)和显式的状态标注(角色骨骼、世界状态、相机姿态、深度图),从而为模型学习动作与状态之间的关系提供充足的数据支持。

技术框架:WildWorld数据集的构建流程主要包括以下几个阶段:1) 数据收集:从Monster Hunter: Wilds游戏中自动收集视频帧和相应的标注信息。2) 数据清洗:对收集到的数据进行清洗和过滤,去除噪声和异常数据。3) 数据标注:对视频帧进行显式的状态标注,包括角色骨骼、世界状态、相机姿态和深度图。4) 数据集划分:将数据集划分为训练集、验证集和测试集。同时,作者还提出了WildBench,用于评估模型在动作跟随和状态对齐方面的性能。

关键创新:WildWorld数据集的关键创新在于其大规模、多样化的动作空间和显式的状态标注。与现有数据集相比,WildWorld包含更多种类的动作,并且提供了角色骨骼、世界状态等显式的状态信息,这使得模型能够更好地学习动作与状态之间的关系,从而提高世界建模的性能。

关键设计:WildWorld数据集包含超过1.08亿帧,涵盖了超过450个动作,包括移动、攻击和技能施放等。数据集中的每个视频帧都标注了角色骨骼、世界状态、相机姿态和深度图等信息。WildBench评估指标包括动作跟随和状态对齐,用于评估模型在预测未来状态和保持状态一致性方面的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在WildWorld数据集上建模语义丰富的动作和保持长期状态一致性方面面临挑战。WildBench评估结果显示,现有模型在动作跟随和状态对齐方面的性能仍有提升空间,这表明需要进一步研究状态感知的视频生成方法。

🎯 应用场景

WildWorld数据集可用于训练和评估各种动作条件世界模型,例如视频预测模型、强化学习模型和生成式ARPG模型。该数据集能够促进对动作与状态之间关系的理解,并推动相关领域的研究进展。此外,该数据集还可以应用于游戏AI、虚拟现实和机器人等领域。

📄 摘要(原文)

Dynamical systems theory and reinforcement learning view world evolution as latent-state dynamics driven by actions, with visual observations providing partial information about the state. Recent video world models attempt to learn this action-conditioned dynamics from data. However, existing datasets rarely match the requirement: they typically lack diverse and semantically meaningful action spaces, and actions are directly tied to visual observations rather than mediated by underlying states. As a result, actions are often entangled with pixel-level changes, making it difficult for models to learn structured world dynamics and maintain consistent evolution over long horizons. In this paper, we propose WildWorld, a large-scale action-conditioned world modeling dataset with explicit state annotations, automatically collected from a photorealistic AAA action role-playing game (Monster Hunter: Wilds). WildWorld contains over 108 million frames and features more than 450 actions, including movement, attacks, and skill casting, together with synchronized per-frame annotations of character skeletons, world states, camera poses, and depth maps. We further derive WildBench to evaluate models through Action Following and State Alignment. Extensive experiments reveal persistent challenges in modeling semantically rich actions and maintaining long-horizon state consistency, highlighting the need for state-aware video generation. The project page is https://shandaai.github.io/wildworld-project/.