Training Agents Inside of Scalable World Models

📄 arXiv: 2509.24527v1 📥 PDF

作者: Danijar Hafner, Wilson Yan, Timothy Lillicrap

分类: cs.AI, cs.LG, cs.RO, stat.ML

发布日期: 2025-09-29

备注: Website: https://danijar.com/dreamer4/


💡 一句话要点

Dreamer 4:通过可扩展世界模型在Minecraft中实现离线钻石获取

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 强化学习 离线学习 Minecraft Transformer

📋 核心要点

  1. 现有世界模型在复杂环境中预测物体交互方面存在不足,限制了智能体的能力。
  2. Dreamer 4通过学习快速且精确的世界模型,并在其中进行强化学习,从而解决控制任务。
  3. Dreamer 4在Minecraft中成功仅使用离线数据获取钻石,超越了以往的世界模型。

📝 摘要(中文)

本文提出了Dreamer 4,一个可扩展的智能体,它通过在快速且精确的世界模型中进行强化学习来解决控制任务。在复杂的视频游戏Minecraft中,该世界模型能够准确预测物体交互和游戏机制,性能远超以往的世界模型。该模型通过shortcut forcing objective和高效的Transformer架构,在单个GPU上实现实时交互推理。此外,该模型仅需少量数据即可学习通用动作条件,从而能够从各种未标记视频中提取大部分知识。论文提出了一个仅从离线数据在Minecraft中获取钻石的挑战,这与机器人等实际应用相符,因为从环境交互中学习可能不安全且缓慢。Dreamer 4是第一个仅从离线数据在Minecraft中获取钻石的智能体,无需环境交互。这项工作为想象训练提供了一个可扩展的方案,标志着智能体发展迈出重要一步。

🔬 方法详解

问题定义:论文旨在解决在复杂环境中,智能体如何仅通过离线数据学习并完成高难度任务的问题,例如在Minecraft中获取钻石。现有世界模型在预测复杂环境中的物体交互方面存在不足,导致智能体难以有效地进行想象训练,从而限制了其在实际应用中的潜力。

核心思路:论文的核心思路是构建一个快速且精确的世界模型,并利用该模型进行想象训练。通过在世界模型中进行强化学习,智能体可以在安全且高效的环境中学习策略,而无需与真实环境进行交互。这种方法特别适用于那些与环境交互成本高昂或存在安全风险的场景。

技术框架:Dreamer 4的整体框架包含两个主要部分:世界模型和行为学习。世界模型负责从视频数据中学习环境的动态特性,并预测未来的状态。行为学习则是在世界模型中进行强化学习,以学习完成特定任务的策略。该框架使用Transformer架构来提高世界模型的预测精度和效率,并采用shortcut forcing objective来加速训练。

关键创新:该论文的关键创新在于提出了一种可扩展的想象训练方案,该方案能够仅从离线数据中学习复杂的行为策略。通过结合快速且精确的世界模型和高效的强化学习算法,Dreamer 4能够在Minecraft中成功获取钻石,而无需与真实环境进行交互。此外,该模型仅需少量数据即可学习通用动作条件,从而能够从各种未标记视频中提取大部分知识。

关键设计:世界模型使用Transformer架构,并采用shortcut forcing objective来加速训练。行为学习使用强化学习算法,例如Actor-Critic方法,在世界模型中学习策略。论文中可能包含一些关键的参数设置,例如Transformer的层数、隐藏单元的数量、学习率等,但具体细节未知。损失函数可能包括预测误差和强化学习奖励等。

🖼️ 关键图片

img_0

📊 实验亮点

Dreamer 4是第一个仅从离线数据在Minecraft中获取钻石的智能体,无需任何环境交互。该模型在Minecraft中准确预测物体交互和游戏机制,性能远超以往的世界模型。该世界模型在单个GPU上实现实时交互推理,展示了其高效性和可扩展性。这些结果表明,Dreamer 4为想象训练提供了一个可扩展的方案,标志着智能体发展迈出重要一步。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶等领域,尤其是在环境交互成本高昂或存在安全风险的场景下。例如,可以利用该方法训练机器人在复杂环境中执行任务,而无需进行大量的真实环境实验。此外,该方法还可以用于游戏AI的开发,提升游戏AI的智能水平和适应能力。未来,该技术有望推动智能体在更广泛的领域中得到应用。

📄 摘要(原文)

World models learn general knowledge from videos and simulate experience for training behaviors in imagination, offering a path towards intelligent agents. However, previous world models have been unable to accurately predict object interactions in complex environments. We introduce Dreamer 4, a scalable agent that learns to solve control tasks by reinforcement learning inside of a fast and accurate world model. In the complex video game Minecraft, the world model accurately predicts object interactions and game mechanics, outperforming previous world models by a large margin. The world model achieves real-time interactive inference on a single GPU through a shortcut forcing objective and an efficient transformer architecture. Moreover, the world model learns general action conditioning from only a small amount of data, allowing it to extract the majority of its knowledge from diverse unlabeled videos. We propose the challenge of obtaining diamonds in Minecraft from only offline data, aligning with practical applications such as robotics where learning from environment interaction can be unsafe and slow. This task requires choosing sequences of over 20,000 mouse and keyboard actions from raw pixels. By learning behaviors in imagination, Dreamer 4 is the first agent to obtain diamonds in Minecraft purely from offline data, without environment interaction. Our work provides a scalable recipe for imagination training, marking a step towards intelligent agents.