Solaris: Building a Multiplayer Video World Model in Minecraft

📄 arXiv: 2602.22208 📥 PDF

作者: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

Solaris:构建Minecraft多人视频世界模型,实现一致的多视角模拟。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多人世界模型 视频生成 多智能体交互 Minecraft 自监督学习

📋 核心要点

  1. 现有视频世界模型缺乏对多智能体交互的建模能力,限制了其在复杂环境中的应用。
  2. Solaris通过构建多人数据系统,并采用分阶段训练策略,实现了对多人游戏环境的有效建模。
  3. 实验结果表明,Solaris在多人移动、记忆、构建和视角一致性等方面优于现有基线模型。

📝 摘要(中文)

现有的动作条件视频生成模型(视频世界模型)局限于单智能体视角,无法捕捉真实世界环境中的多智能体交互。我们提出了Solaris,一个多人视频世界模型,可以模拟一致的多视角观测。为此,我们开发了一个多人数据系统,旨在对Minecraft等视频游戏进行稳健、连续和自动化的数据收集。与之前为单人游戏环境构建的平台不同,我们的系统支持协调的多智能体交互和同步的视频+动作捕获。利用该系统,我们收集了1264万个多人游戏帧,并提出了一个用于多人移动、记忆、定位、构建和视角一致性的评估框架。我们使用一个分阶段的流水线训练Solaris,逐步从单人游戏建模过渡到多人游戏建模,结合双向、因果和自强制训练。在最后阶段,我们引入了检查点自强制,这是一种内存高效的自强制变体,可以实现更长的时间范围的教师指导。结果表明,我们的架构和训练设计优于现有的基线。通过开源我们的系统和模型,我们希望为新一代多智能体世界模型奠定基础。

🔬 方法详解

问题定义:现有视频世界模型主要针对单智能体环境,无法有效捕捉多智能体之间的复杂交互关系,导致在多人协作或竞争场景下的性能受限。痛点在于缺乏能够支持多智能体同步数据采集和建模的系统与方法。

核心思路:Solaris的核心思路是构建一个能够模拟一致多视角观测的多人视频世界模型。通过设计专门的数据采集系统和分阶段训练策略,逐步提升模型在多人环境下的建模能力,最终实现对多智能体交互行为的准确预测。

技术框架:Solaris的整体框架包含以下几个主要模块:1) 多人数据系统:用于在Minecraft游戏中进行多智能体同步数据采集,包括视频帧和动作序列。2) 分阶段训练流水线:逐步从单人游戏建模过渡到多人游戏建模,包括单人训练、双向训练、因果训练和自强制训练等阶段。3) 模型架构:采用基于Transformer的视频生成模型,用于学习视频帧和动作之间的关系。

关键创新:Solaris的关键创新在于:1) 多人数据系统:能够支持协调的多智能体交互和同步的视频+动作捕获,为多人世界模型的训练提供了高质量的数据。2) 检查点自强制:一种内存高效的自强制变体,可以实现更长的时间范围的教师指导,提升了模型的长期预测能力。

关键设计:在训练过程中,采用了分阶段训练策略,逐步增加模型的复杂度。在自强制训练阶段,引入了检查点机制,以减少内存消耗。损失函数方面,采用了标准的视频生成损失函数,并针对多智能体交互进行了优化。网络结构方面,采用了Transformer架构,并针对视频数据的特点进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Solaris在Minecraft多人游戏环境中进行了实验验证,结果表明其在多人移动、记忆、定位、构建和视角一致性等方面均优于现有基线模型。通过检查点自强制训练,模型能够生成更长期的连贯视频序列,并更好地捕捉多智能体之间的交互关系。具体性能数据未知,但论文强调了其架构和训练设计优于现有基线。

🎯 应用场景

Solaris的潜在应用领域包括:多智能体强化学习、虚拟现实、游戏AI、机器人协作等。该研究的实际价值在于为多智能体环境下的行为预测和决策提供了新的思路和方法。未来,可以进一步扩展到更复杂的真实世界场景,例如自动驾驶、智能交通等。

📄 摘要(原文)

Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.