PlayWorld: Learning Robot World Models from Autonomous Play

作者: Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha Majumdar

分类: cs.RO, cs.AI

发布日期: 2026-04-07

💡 一句话要点

PlayWorld：通过自主玩耍学习机器人世界模型，提升物理交互预测能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人学习 世界模型 自主探索 视频预测 强化学习 物理交互 无监督学习

📋 核心要点

现有基于动作条件的视频模型在预测物理一致的机器人-物体交互方面存在困难，限制了其在机器人操作中的应用。
PlayWorld通过无监督的机器人自玩学习，构建高保真视频世界模拟器，捕捉复杂物理交互，实现可扩展的数据收集。
实验表明，PlayWorld在接触丰富的交互预测、故障预测和策略评估方面优于人工数据训练的模型，强化学习策略成功率提升65%。

📝 摘要（中文）

本文提出PlayWorld，一个简单、可扩展且完全自主的流程，用于从交互经验中训练高保真视频世界模拟器。与依赖于成功导向的人工示教的先前方法不同，PlayWorld是第一个能够完全从无监督机器人自玩中学习的系统，从而实现自然可扩展的数据收集，同时捕获对于建模真实物体动力学至关重要的复杂、长尾物理交互。在各种操作任务中的实验表明，PlayWorld为接触丰富的交互生成高质量、物理一致的预测，而这些交互是基于人工收集的数据训练的世界模型无法捕获的。进一步证明了PlayWorld在实现细粒度故障预测和策略评估方面的多功能性，与人工收集的数据相比，性能提升高达40%。最后，展示了PlayWorld如何在世界模型中实现强化学习，在真实世界部署时，策略性能的成功率提高了65%。

🔬 方法详解

问题定义：现有基于动作条件的视频模型在机器人操作任务中，尤其是在涉及复杂物理交互（例如接触、碰撞）的场景下，预测的物理一致性不足。人工示教数据存在偏差，难以覆盖长尾的物理交互情况，导致模型泛化能力受限。因此，需要一种能够从大量无监督交互数据中学习，并能准确预测物理交互的世界模型。

核心思路：PlayWorld的核心思路是利用机器人自主探索和玩耍（self-play）来生成大规模、多样化的交互数据，从而训练出更鲁棒和泛化的世界模型。通过无监督的方式，避免了人工示教数据的偏差，并能够捕捉到更多长尾的物理交互情况。这种自主学习的方式更接近于人类学习物理世界的模式。

技术框架：PlayWorld的整体框架包含以下几个主要模块：1) 自主探索策略：机器人通过预定义的或学习到的策略，在环境中进行自主探索和交互。2) 数据收集：记录机器人的动作序列和对应的视觉观测（视频）。3) 世界模型训练：使用收集到的数据训练一个动作条件视频模型，该模型能够预测给定动作序列后的未来视觉观测。4) 策略评估与改进：利用训练好的世界模型进行策略评估和改进，例如通过强化学习在模拟环境中训练策略，然后迁移到真实机器人上。

关键创新：PlayWorld的关键创新在于其完全自主的数据收集和学习方式。与以往依赖人工示教或预定义规则的方法不同，PlayWorld能够通过机器人自玩来生成大规模、多样化的交互数据，从而训练出更具泛化能力的物理世界模型。这种方法能够更好地捕捉长尾的物理交互情况，并减少人工干预的需求。

关键设计：PlayWorld的具体实现细节包括：1) 使用特定的视频预测模型架构（具体架构未知，但应是state-of-the-art的模型）。2) 设计合适的奖励函数，鼓励机器人在环境中进行多样化的交互。3) 采用数据增强技术，提高模型的鲁棒性。4) 使用合适的优化算法和超参数，训练世界模型。

🖼️ 关键图片

📊 实验亮点

PlayWorld在多个操作任务中表现出显著优势。与基于人工数据训练的世界模型相比，PlayWorld能够生成更高质量、物理一致的预测，尤其是在接触丰富的交互场景中。在细粒度故障预测和策略评估方面，PlayWorld的性能提升高达40%。通过在PlayWorld训练的世界模型中进行强化学习，真实机器人策略的成功率提高了65%。

🎯 应用场景

PlayWorld具有广泛的应用前景，可用于机器人操作、自动驾驶、游戏AI等领域。它可以作为机器人学习和控制的基础，帮助机器人更好地理解和适应复杂环境。通过在模拟环境中进行策略训练，可以显著降低真实机器人实验的成本和风险。此外，PlayWorld还可以用于生成逼真的虚拟环境，用于游戏开发和虚拟现实应用。

📄 摘要（原文）

Action-conditioned video models offer a promising path to building general-purpose robot simulators that can improve directly from data. Yet, despite training on large-scale robot datasets, current state-of-the-art video models still struggle to predict physically consistent robot-object interactions that are crucial in robotic manipulation. To close this gap, we present PlayWorld, a simple, scalable, and fully autonomous pipeline for training high-fidelity video world simulators from interaction experience. In contrast to prior approaches that rely on success-biased human demonstrations, PlayWorld is the first system capable of learning entirely from unsupervised robot self-play, enabling naturally scalable data collection while capturing complex, long-tailed physical interactions essential for modeling realistic object dynamics. Experiments across diverse manipulation tasks show that PlayWorld generates high-quality, physically consistent predictions for contact-rich interactions that are not captured by world models trained on human-collected data. We further demonstrate the versatility of PlayWorld in enabling fine-grained failure prediction and policy evaluation, with up to 40% improvements over human-collected data. Finally, we demonstrate how PlayWorld enables reinforcement learning in the world model, improving policy performance by 65% in success rates when deployed in the real world.

PlayWorld: Learning Robot World Models from Autonomous Play

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理