Ctrl-World: A Controllable Generative World Model for Robot Manipulation

作者: Yanjiang Guo, Lucy Xiaoyang Shi, Jianyu Chen, Chelsea Finn

分类: cs.RO, cs.AI

发布日期: 2025-10-11 (更新: 2025-10-15)

备注: 17 pages

💡 一句话要点

提出Ctrl-World，用于机器人操作的可控生成世界模型，提升策略学习。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 机器人操作 通用策略 多视角预测 长时程一致性

📋 核心要点

通用机器人策略评估和改进面临真实数据获取成本高昂、难以扩展的挑战。
Ctrl-World提出一种可控多视角世界模型，支持多视角预测和精细动作控制，实现长时程交互。
实验表明，该模型能准确评估策略性能，并通过想象轨迹微调，显著提升策略成功率。

📝 摘要（中文）

通用机器人策略现在可以执行各种操作技能，但评估和改进它们处理不熟悉物体和指令的能力仍然是一个重大挑战。严格的评估需要大量的真实世界实验，而系统的改进需要额外的专家标注数据。这两个过程都缓慢、昂贵且难以扩展。世界模型提供了一种有前景且可扩展的替代方案，使策略能够在想象空间中展开。然而，一个关键挑战是构建一个可控的世界模型，该模型可以处理与通用机器人策略的多步交互。这需要一个与现代通用策略兼容的世界模型，支持多视角预测、精细的动作控制和一致的长时程交互，而先前的工作未能实现这一点。在本文中，我们向前迈进了一步，引入了一个可控的多视角世界模型，可用于评估和改进通用机器人策略的指令跟随能力。我们的模型通过姿态条件记忆检索机制保持长时程一致性，并通过帧级动作条件化实现精确的动作控制。在DROID数据集（95k轨迹，564个场景）上训练后，我们的模型可以在新的场景和新的相机位置下生成超过20秒的空间和时间上一致的轨迹。我们表明，我们的方法可以在没有真实世界机器人实验的情况下准确地对策略性能进行排序。此外，通过在想象中合成成功的轨迹并将其用于监督微调，我们的方法可以将策略成功率提高44.7%。

🔬 方法详解

问题定义：现有通用机器人策略的评估和改进依赖于大量的真实世界实验，成本高昂且难以扩展。已有的世界模型难以支持多视角预测、精细动作控制和长时程一致性，无法有效辅助通用策略的学习和评估。

核心思路：Ctrl-World的核心思路是构建一个可控的生成世界模型，该模型能够模拟真实世界的机器人操作过程，并允许策略在想象空间中进行训练和评估。通过姿态条件记忆检索机制和帧级动作条件化，模型能够保持长时程一致性并实现精确的动作控制。

技术框架：Ctrl-World包含以下主要模块：1) 多视角编码器，用于提取场景的多视角特征；2) 姿态条件记忆模块，用于存储和检索历史状态信息，以保持长时程一致性；3) 帧级动作条件化模块，用于将动作信息融入到世界模型的预测中，实现精确的动作控制；4) 解码器，用于生成下一帧的图像。整个流程是，给定当前状态的多视角图像和动作指令，模型预测下一帧的图像，并更新记忆模块。

关键创新：Ctrl-World的关键创新在于其可控性和长时程一致性。通过姿态条件记忆检索机制，模型能够记住过去的状态信息，并将其用于未来的预测，从而保持长时程一致性。通过帧级动作条件化，模型能够精确地控制机器人的动作，并预测动作对环境的影响。

关键设计：姿态条件记忆模块使用Transformer架构，将历史状态的姿态信息作为query，从记忆库中检索相关的信息。帧级动作条件化模块将动作信息嵌入到图像特征中，并通过卷积神经网络进行融合。损失函数包括图像重建损失和对抗损失，以提高生成图像的质量和真实感。

📊 实验亮点

Ctrl-World在DROID数据集上进行了训练，并在新的场景和相机位置下生成了超过20秒的空间和时间上一致的轨迹。实验结果表明，该方法可以在没有真实世界机器人实验的情况下准确地对策略性能进行排序。通过在想象中合成成功的轨迹并将其用于监督微调，该方法可以将策略成功率提高44.7%。

🎯 应用场景

Ctrl-World可应用于机器人操作策略的离线评估和改进，减少对真实世界实验的依赖。该模型还可用于生成合成数据，用于训练更鲁棒的机器人策略。此外，该模型还可用于机器人操作的规划和控制，例如，通过在想象空间中进行规划，找到最优的动作序列。

📄 摘要（原文）

Generalist robot policies can now perform a wide range of manipulation skills, but evaluating and improving their ability with unfamiliar objects and instructions remains a significant challenge. Rigorous evaluation requires a large number of real-world rollouts, while systematic improvement demands additional corrective data with expert labels. Both of these processes are slow, costly, and difficult to scale. World models offer a promising, scalable alternative by enabling policies to rollout within imagination space. However, a key challenge is building a controllable world model that can handle multi-step interactions with generalist robot policies. This requires a world model compatible with modern generalist policies by supporting multi-view prediction, fine-grained action control, and consistent long-horizon interactions, which is not achieved by previous works. In this paper, we make a step forward by introducing a controllable multi-view world model that can be used to evaluate and improve the instruction-following ability of generalist robot policies. Our model maintains long-horizon consistency with a pose-conditioned memory retrieval mechanism and achieves precise action control through frame-level action conditioning. Trained on the DROID dataset (95k trajectories, 564 scenes), our model generates spatially and temporally consistent trajectories under novel scenarios and new camera placements for over 20 seconds. We show that our method can accurately rank policy performance without real-world robot rollouts. Moreover, by synthesizing successful trajectories in imagination and using them for supervised fine-tuning, our approach can improve policy success by 44.7\%.

Ctrl-World: A Controllable Generative World Model for Robot Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册