Solaris: Building a Multiplayer Video World Model in Minecraft

📄 arXiv: 2602.22208v1 📥 PDF

作者: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

分类: cs.CV

发布日期: 2026-02-25

备注: Project website: https://solaris-wm.github.io/


💡 一句话要点

Solaris:构建Minecraft多人视频世界模型,实现一致的多视角模拟。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 多智能体系统 Minecraft 视频生成 自监督学习

📋 核心要点

  1. 现有视频世界模型缺乏对多智能体交互的建模能力,限制了其在复杂环境中的应用。
  2. Solaris通过构建多人数据系统和分阶段训练策略,实现了对Minecraft多人环境的有效建模。
  3. 实验表明,Solaris在多人运动、记忆、构建和视角一致性等方面优于现有基线模型。

📝 摘要(中文)

现有的动作条件视频生成模型(视频世界模型)受限于单智能体视角,无法捕捉真实世界环境中的多智能体交互。我们提出了Solaris,一个多人视频世界模型,能够模拟一致的多视角观测。为此,我们开发了一个多人数据系统,专为在Minecraft等视频游戏中进行鲁棒、连续和自动化的数据收集而设计。与之前为单人游戏环境构建的平台不同,我们的系统支持协调的多智能体交互以及同步的视频和动作捕捉。利用该系统,我们收集了1264万个多人游戏帧,并提出了一个评估框架,用于评估多人运动、记忆、定位、构建和视角一致性。我们使用一个分阶段的流水线训练Solaris,逐步从单人游戏建模过渡到多人游戏建模,结合双向、因果和自强制训练。在最后阶段,我们引入了Checkpointed Self Forcing,这是一种内存高效的自强制变体,能够实现更长的时间范围的教师指导。结果表明,我们的架构和训练设计优于现有的基线。通过开源我们的系统和模型,我们希望为新一代多智能体世界模型奠定基础。

🔬 方法详解

问题定义:现有视频世界模型主要关注单智能体视角,无法有效捕捉和模拟多智能体之间的复杂交互。这限制了它们在需要多智能体协作或竞争的真实世界环境中的应用,例如自动驾驶、机器人协作等。现有方法难以处理多视角数据的一致性问题,以及多智能体行为的长期依赖关系。

核心思路:Solaris的核心思路是构建一个能够理解和模拟多智能体交互的视频世界模型。通过专门设计的数据收集系统和训练策略,模型能够学习到多智能体环境中的运动模式、记忆信息、空间关系以及视角一致性。这种设计旨在克服单智能体模型的局限性,并为更复杂的交互场景提供基础。

技术框架:Solaris的整体框架包含两个主要部分:多人数据系统和分阶段训练流水线。多人数据系统负责在Minecraft环境中收集同步的多视角视频和动作数据。分阶段训练流水线则逐步将模型从单人游戏建模过渡到多人游戏建模,包括单人训练、双向训练、因果训练和自强制训练等阶段。最后,引入Checkpointed Self Forcing来提高训练效率和性能。

关键创新:Solaris的关键创新在于其针对多智能体环境的建模能力。具体体现在以下几个方面:一是多人数据系统的设计,能够支持协调的多智能体交互和同步数据采集;二是分阶段训练策略,能够有效地将模型从单人环境迁移到多人环境;三是Checkpointed Self Forcing,一种内存高效的自强制训练方法,能够实现更长的时间范围的教师指导。

关键设计:在数据收集方面,系统能够同步记录多个智能体的视角、动作和环境信息。在模型训练方面,采用了分阶段的训练策略,逐步增加模型的复杂度和难度。Checkpointed Self Forcing通过定期保存模型的中间状态,减少了内存消耗,从而能够使用更长的序列进行训练。损失函数的设计也考虑了多视角一致性,鼓励模型生成一致的观测结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Solaris在Minecraft多人环境中取得了显著的性能提升。实验结果表明,Solaris在多人运动、记忆、定位、构建和视角一致性等多个指标上均优于现有基线模型。特别是,Checkpointed Self Forcing的使用显著提高了模型的训练效率和生成质量,使得模型能够更好地捕捉多智能体之间的长期依赖关系。

🎯 应用场景

Solaris具有广泛的应用前景,包括但不限于:多智能体强化学习、机器人协作、自动驾驶模拟、虚拟现实游戏等。通过模拟真实世界的多智能体交互,Solaris可以帮助训练更智能、更鲁棒的智能体,并为复杂系统的设计和优化提供支持。此外,该研究还可以促进对人类社交行为的理解和建模。

📄 摘要(原文)

Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.