DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

作者: Shicheng Yin, Kaixuan Yin, Weixing Chen, Yang Liu, Guanbin Li, Liang Lin

分类: cs.CV, cs.RO

发布日期: 2026-02-02

备注: Codes will be available at https://github.com/HCPLabSYSU/DDP-WM

🔗 代码/项目: GITHUB

💡 一句话要点

DDP-WM：解耦动态预测的高效世界模型，加速机器人自主规划

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 动态预测 解耦表示 机器人规划 自主导航

📋 核心要点

现有世界模型计算开销大，难以实时部署，限制了机器人的自主规划能力。
DDP-WM通过解耦动态预测，将场景动态分解为主要动态和背景更新，提高效率。
实验表明，DDP-WM在多种任务中显著提升了效率和性能，例如在Push-T任务中大幅提升了推理速度和成功率。

📝 摘要（中文）

世界模型对于自主机器人规划至关重要。然而，现有基于Transformer的密集模型计算开销巨大，严重阻碍了实时部署。为了解决效率与性能之间的瓶颈，我们提出了DDP-WM，一种基于解耦动态预测（DDP）的新型世界模型。我们假设观测场景中的潜在状态演变是异构的，可以分解为由物理交互驱动的稀疏主要动态和由上下文驱动的次要背景更新。DDP-WM通过集成高效的历史处理和动态定位的架构来实现这种分解，从而隔离主要动态。通过采用交叉注意力机制进行背景更新，该框架优化了资源分配，并为规划器提供了平滑的优化空间。大量实验表明，DDP-WM在导航、精确桌面操作以及复杂的可变形或多体交互等多种任务中实现了显著的效率和性能提升。特别是在具有挑战性的Push-T任务中，与最先进的密集模型相比，DDP-WM实现了约9倍的推理速度提升，并将MPC成功率从90%提高到98%。这些结果为开发高效、高保真的世界模型奠定了有希望的基础。

🔬 方法详解

问题定义：现有基于Transformer的密集世界模型在计算上非常昂贵，难以满足机器人实时规划的需求。这些模型通常需要处理大量的像素信息，导致推理速度慢，难以应用于复杂的动态环境。

核心思路：论文的核心思想是将场景中的动态变化解耦为两个部分：主要动态（由物理交互驱动的关键对象变化）和次要动态（背景变化）。通过分别处理这两部分，可以减少计算量，并提高模型的效率。

技术框架：DDP-WM的整体架构包含以下几个主要模块：1) 历史信息处理模块，用于提取过去的状态信息；2) 动态定位模块，用于识别和定位场景中的主要动态区域；3) 主要动态预测模块，用于预测主要动态区域的未来状态；4) 背景更新模块，使用交叉注意力机制更新背景信息。整个流程旨在隔离和高效处理主要动态，同时保持对背景变化的感知。

关键创新：DDP-WM的关键创新在于解耦动态预测的思想，以及动态定位模块的设计。通过动态定位，模型可以专注于处理场景中最重要的动态变化，从而避免了对所有像素进行密集计算。这种解耦方法显著提高了模型的效率，同时保持了较高的预测精度。

关键设计：DDP-WM使用交叉注意力机制来更新背景信息，这有助于模型更好地捕捉背景变化。此外，论文还设计了一种损失函数，用于鼓励模型学习解耦的动态表示。具体的网络结构和参数设置在论文中有详细描述，例如动态定位模块可能使用了卷积神经网络来提取特征并进行定位。

🖼️ 关键图片

📊 实验亮点

DDP-WM在多个任务上表现出色。在具有挑战性的Push-T任务中，DDP-WM实现了约9倍的推理速度提升，并将MPC成功率从90%提高到98%，显著优于现有的密集世界模型。这些结果表明，DDP-WM在效率和性能方面都具有显著优势。

🎯 应用场景

DDP-WM具有广泛的应用前景，可用于提升机器人在各种复杂环境中的自主规划能力。例如，它可以应用于自动驾驶、机器人操作、游戏AI等领域。通过提供高效、高保真的世界模型，DDP-WM可以帮助机器人更好地理解环境，并做出更合理的决策，从而实现更安全、更高效的自主行为。

📄 摘要（原文）

World models are essential for autonomous robotic planning. However, the substantial computational overhead of existing dense Transformerbased models significantly hinders real-time deployment. To address this efficiency-performance bottleneck, we introduce DDP-WM, a novel world model centered on the principle of Disentangled Dynamics Prediction (DDP). We hypothesize that latent state evolution in observed scenes is heterogeneous and can be decomposed into sparse primary dynamics driven by physical interactions and secondary context-driven background updates. DDP-WM realizes this decomposition through an architecture that integrates efficient historical processing with dynamic localization to isolate primary dynamics. By employing a crossattention mechanism for background updates, the framework optimizes resource allocation and provides a smooth optimization landscape for planners. Extensive experiments demonstrate that DDP-WM achieves significant efficiency and performance across diverse tasks, including navigation, precise tabletop manipulation, and complex deformable or multi-body interactions. Specifically, on the challenging Push-T task, DDP-WM achieves an approximately 9 times inference speedup and improves the MPC success rate from 90% to98% compared to state-of-the-art dense models. The results establish a promising path for developing efficient, high-fidelity world models. Codes will be available at https://github.com/HCPLabSYSU/DDP-WM.

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理