Accurate and Efficient World Modeling with Masked Latent Transformers

作者: Maxime Burchi, Radu Timofte

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-07-05

💡 一句话要点

提出EMERALD，一种基于掩码潜在Transformer的高精度、高效率世界模型，并在Crafter基准上超越人类专家。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 潜在Transformer 强化学习 MaskGIT 环境建模

📋 核心要点

Dreamer等算法的世界模型存在信息压缩损失，影响智能体性能，而直接从像素训练的方法效率较低。
EMERALD利用空间潜在状态和MaskGIT预测，在潜在空间中生成准确轨迹，从而提升智能体性能。
EMERALD在Crafter基准上超越人类专家，成为首个在10M步内达成此成就的方法，并解锁所有22个成就。

📝 摘要（中文）

Dreamer算法通过模拟轨迹训练强大的智能体，在各种环境领域取得了显著的性能。然而，其世界模型的潜在空间的压缩特性可能导致关键信息的丢失，从而对智能体的性能产生负面影响。最近的方法，如$Δ$-IRIS和DIAMOND，通过训练更准确的世界模型来解决这一限制。然而，这些方法需要直接从像素训练智能体，这降低了训练效率，并阻止智能体从世界模型学习到的内部表示中受益。本文提出了一种既准确又高效的世界建模替代方法。我们引入EMERALD（Efficient MaskEd latent tRAnsformer worLD model），这是一种使用空间潜在状态和MaskGIT预测的世界模型，可以在潜在空间中生成准确的轨迹，并提高智能体的性能。在Crafter基准测试中，EMERALD取得了新的state-of-the-art性能，成为第一个在10M环境步数内超越人类专家性能的方法。我们的方法还成功地在评估期间至少一次解锁了所有22个Crafter成就。

🔬 方法详解

问题定义：现有基于Dreamer的世界模型由于潜在空间的压缩，会丢失关键信息，导致智能体性能下降。而直接从像素训练的世界模型（如Δ-IRIS和DIAMOND）虽然精度更高，但训练效率较低，无法充分利用世界模型学习到的内部表示。因此，问题在于如何构建一个既准确又高效的世界模型。

核心思路：EMERALD的核心思路是利用空间潜在状态来保留更多信息，并使用MaskGIT进行潜在空间的预测。通过这种方式，EMERALD可以在潜在空间中生成更准确的轨迹，从而提高智能体的性能，同时避免直接从像素进行训练，保持较高的训练效率。

技术框架：EMERALD的世界模型主要包含以下模块：1）编码器：将环境观测编码为空间潜在状态；2）Transformer：使用MaskGIT进行潜在状态的预测，生成未来的潜在状态；3）解码器：将潜在状态解码为环境观测的预测。整个流程是：智能体与环境交互，观测被编码为潜在状态，Transformer预测未来的潜在状态，解码器将预测的潜在状态解码为环境观测的预测，用于训练智能体。

关键创新：EMERALD的关键创新在于：1）使用空间潜在状态，相比于压缩的潜在向量，能够保留更多环境信息；2）引入MaskGIT进行潜在状态的预测，MaskGIT是一种基于Transformer的生成模型，能够生成高质量的潜在状态序列。这种结合使得EMERALD既能保持较高的精度，又能保持较高的效率。

关键设计：EMERALD的关键设计包括：1）空间潜在状态的维度和结构；2）MaskGIT的Transformer架构和训练方式；3）损失函数的设计，包括重构损失和正则化项，用于优化世界模型的性能。具体的参数设置和网络结构细节需要在论文中查找。

🖼️ 关键图片

📊 实验亮点

EMERALD在Crafter基准测试中取得了显著的成果，成为第一个在10M环境步数内超越人类专家性能的方法。此外，EMERALD还成功地在评估期间至少一次解锁了所有22个Crafter成就，展示了其强大的泛化能力和解决复杂问题的能力。这些实验结果表明，EMERALD是一种非常有前景的世界建模方法。

🎯 应用场景

EMERALD具有广泛的应用前景，可用于机器人控制、游戏AI、自动驾驶等领域。通过构建更准确和高效的世界模型，智能体可以更好地理解和预测环境，从而做出更明智的决策。该研究有助于推动通用人工智能的发展，使智能体能够在更复杂的环境中自主学习和行动。

📄 摘要（原文）

The Dreamer algorithm has recently obtained remarkable performance across diverse environment domains by training powerful agents with simulated trajectories. However, the compressed nature of its world model's latent space can result in the loss of crucial information, negatively affecting the agent's performance. Recent approaches, such as $Δ$-IRIS and DIAMOND, address this limitation by training more accurate world models. However, these methods require training agents directly from pixels, which reduces training efficiency and prevents the agent from benefiting from the inner representations learned by the world model. In this work, we propose an alternative approach to world modeling that is both accurate and efficient. We introduce EMERALD (Efficient MaskEd latent tRAnsformer worLD model), a world model using a spatial latent state with MaskGIT predictions to generate accurate trajectories in latent space and improve the agent performance. On the Crafter benchmark, EMERALD achieves new state-of-the-art performance, becoming the first method to surpass human experts performance within 10M environment steps. Our method also succeeds to unlock all 22 Crafter achievements at least once during evaluation.

Accurate and Efficient World Modeling with Masked Latent Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理