Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

作者: Jun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-04-29

备注: Project website: https://sharinka0715.github.io/X-WAM/

💡 一句话要点

X-WAM：统一的4D世界模型，通过异步去噪实现高效机器人动作执行和高质量4D场景合成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 4D世界模型 机器人动作执行 视频扩散模型 异步去噪 多视角RGB-D 世界建模 深度预测 统一框架

📋 核心要点

现有统一世界模型在机器人动作执行和环境建模方面存在局限，无法同时保证动作效率和建模质量，且多集中于2D像素空间。
X-WAM通过预测多视角RGB-D视频来建模未来世界，利用预训练视频扩散模型的视觉先验，并引入异步噪声采样优化动作解码效率。
X-WAM在RoboCasa和RoboTwin 2.0上取得了显著的成功率提升，同时在视觉和几何指标上超越了现有4D重建和生成方法。

📝 摘要（中文）

本文提出了一种统一的4D世界模型X-WAM，它在一个框架内统一了实时机器人动作执行和高保真4D世界合成（视频+3D重建）。该模型旨在解决现有统一世界模型（如UWM）仅建模2D像素空间，且无法平衡动作效率和世界建模质量的关键局限性。X-WAM利用预训练视频扩散模型的强大视觉先验，通过预测多视角RGB-D视频来想象未来世界，并通过轻量级的结构适配高效地获取空间信息：将预训练扩散Transformer的最后几个块复制到一个专用的深度预测分支，用于重建未来的空间信息。此外，我们提出了异步噪声采样（ANS）来联合优化生成质量和动作解码效率。ANS在推理过程中应用专门的异步去噪调度，以更少的步骤快速解码动作，从而实现高效的实时执行，同时使用完整的步骤序列来生成高保真视频。ANS并非完全解耦训练中的时间步，而是从它们的联合分布中采样，以与推理分布对齐。X-WAM在超过5800小时的机器人数据上进行预训练，在RoboCasa和RoboTwin 2.0基准测试中实现了79.2%和90.7%的平均成功率，同时生成的高保真4D重建和生成在视觉和几何指标上均超过了现有方法。

🔬 方法详解

问题定义：现有统一世界模型（UWM）主要在2D像素空间中进行建模，无法充分利用3D空间信息，导致在机器人动作执行和环境建模方面存在局限性。此外，现有方法难以同时保证动作执行的效率和世界建模的质量，需要在两者之间进行权衡。

核心思路：X-WAM的核心思路是利用预训练视频扩散模型的强大视觉先验，通过预测多视角RGB-D视频来建模未来世界。通过引入深度信息，模型能够更好地理解和重建3D空间结构。此外，异步噪声采样（ANS）策略允许模型在推理时，使用更少的步骤快速解码动作，从而提高动作执行的效率，同时使用完整的步骤序列来生成高质量的视频。

技术框架：X-WAM的整体框架包括以下几个主要模块：1) 视频扩散模型：利用预训练的视频扩散模型生成未来世界的视频序列。2) 深度预测分支：通过复制预训练扩散Transformer的最后几个块，构建一个轻量级的深度预测分支，用于重建未来世界的空间信息。3) 异步噪声采样（ANS）：在推理过程中，使用专门的异步去噪调度，以更少的步骤快速解码动作，同时使用完整的步骤序列来生成高质量的视频。

关键创新：X-WAM的关键创新在于以下几个方面：1) 统一的4D世界模型：将机器人动作执行和高保真4D世界合成统一在一个框架内。2) 轻量级的深度预测分支：通过结构适配，高效地利用预训练视频扩散模型的视觉先验，获取空间信息。3) 异步噪声采样（ANS）：通过异步去噪调度，联合优化生成质量和动作解码效率。与现有方法相比，X-WAM能够更好地平衡动作效率和世界建模质量。

关键设计：在深度预测分支的设计中，作者复制了预训练扩散Transformer的最后几个块，并对其进行微调，以适应深度预测任务。异步噪声采样（ANS）的关键在于设计合适的异步去噪调度，使得模型能够在推理时，使用更少的步骤快速解码动作，同时使用完整的步骤序列来生成高质量的视频。在训练过程中，ANS从时间步的联合分布中采样，以保证训练和推理分布的一致性。

🖼️ 关键图片

📊 实验亮点

X-WAM在RoboCasa和RoboTwin 2.0基准测试中分别取得了79.2%和90.7%的平均成功率，显著优于现有方法。同时，X-WAM生成的高保真4D重建和生成在视觉和几何指标上均超越了现有方法，证明了其在动作执行效率和世界建模质量方面的优越性。这些实验结果表明，X-WAM是一种有效的统一4D世界模型。

🎯 应用场景

X-WAM具有广泛的应用前景，例如在机器人自主导航、智能制造、虚拟现实和增强现实等领域。它可以帮助机器人更好地理解和预测周围环境，从而实现更安全、更高效的自主行为。此外，X-WAM还可以用于生成逼真的虚拟环境，为用户提供沉浸式的体验。该研究的未来影响在于推动机器人和人工智能技术的发展，促进人机协作和智能化应用的普及。

📄 摘要（原文）

We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理