Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising
作者: Jun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-04-29
备注: Project website: https://sharinka0715.github.io/X-WAM/
💡 一句话要点
X-WAM:统一的4D世界模型,通过异步去噪实现高效机器人动作执行和高质量4D场景合成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 4D世界模型 机器人动作执行 视频扩散模型 异步去噪 多视角RGB-D 世界建模 深度预测 统一框架
📋 核心要点
- 现有统一世界模型在机器人动作执行和环境建模方面存在局限,无法同时保证动作效率和建模质量,且多集中于2D像素空间。
- X-WAM通过预测多视角RGB-D视频来建模未来世界,利用预训练视频扩散模型的视觉先验,并引入异步噪声采样优化动作解码效率。
- X-WAM在RoboCasa和RoboTwin 2.0上取得了显著的成功率提升,同时在视觉和几何指标上超越了现有4D重建和生成方法。
📝 摘要(中文)
本文提出了一种统一的4D世界模型X-WAM,它在一个框架内统一了实时机器人动作执行和高保真4D世界合成(视频+3D重建)。该模型旨在解决现有统一世界模型(如UWM)仅建模2D像素空间,且无法平衡动作效率和世界建模质量的关键局限性。X-WAM利用预训练视频扩散模型的强大视觉先验,通过预测多视角RGB-D视频来想象未来世界,并通过轻量级的结构适配高效地获取空间信息:将预训练扩散Transformer的最后几个块复制到一个专用的深度预测分支,用于重建未来的空间信息。此外,我们提出了异步噪声采样(ANS)来联合优化生成质量和动作解码效率。ANS在推理过程中应用专门的异步去噪调度,以更少的步骤快速解码动作,从而实现高效的实时执行,同时使用完整的步骤序列来生成高保真视频。ANS并非完全解耦训练中的时间步,而是从它们的联合分布中采样,以与推理分布对齐。X-WAM在超过5800小时的机器人数据上进行预训练,在RoboCasa和RoboTwin 2.0基准测试中实现了79.2%和90.7%的平均成功率,同时生成的高保真4D重建和生成在视觉和几何指标上均超过了现有方法。
🔬 方法详解
问题定义:现有统一世界模型(UWM)主要在2D像素空间中进行建模,无法充分利用3D空间信息,导致在机器人动作执行和环境建模方面存在局限性。此外,现有方法难以同时保证动作执行的效率和世界建模的质量,需要在两者之间进行权衡。
核心思路:X-WAM的核心思路是利用预训练视频扩散模型的强大视觉先验,通过预测多视角RGB-D视频来建模未来世界。通过引入深度信息,模型能够更好地理解和重建3D空间结构。此外,异步噪声采样(ANS)策略允许模型在推理时,使用更少的步骤快速解码动作,从而提高动作执行的效率,同时使用完整的步骤序列来生成高质量的视频。
技术框架:X-WAM的整体框架包括以下几个主要模块:1) 视频扩散模型:利用预训练的视频扩散模型生成未来世界的视频序列。2) 深度预测分支:通过复制预训练扩散Transformer的最后几个块,构建一个轻量级的深度预测分支,用于重建未来世界的空间信息。3) 异步噪声采样(ANS):在推理过程中,使用专门的异步去噪调度,以更少的步骤快速解码动作,同时使用完整的步骤序列来生成高质量的视频。
关键创新:X-WAM的关键创新在于以下几个方面:1) 统一的4D世界模型:将机器人动作执行和高保真4D世界合成统一在一个框架内。2) 轻量级的深度预测分支:通过结构适配,高效地利用预训练视频扩散模型的视觉先验,获取空间信息。3) 异步噪声采样(ANS):通过异步去噪调度,联合优化生成质量和动作解码效率。与现有方法相比,X-WAM能够更好地平衡动作效率和世界建模质量。
关键设计:在深度预测分支的设计中,作者复制了预训练扩散Transformer的最后几个块,并对其进行微调,以适应深度预测任务。异步噪声采样(ANS)的关键在于设计合适的异步去噪调度,使得模型能够在推理时,使用更少的步骤快速解码动作,同时使用完整的步骤序列来生成高质量的视频。在训练过程中,ANS从时间步的联合分布中采样,以保证训练和推理分布的一致性。
🖼️ 关键图片
📊 实验亮点
X-WAM在RoboCasa和RoboTwin 2.0基准测试中分别取得了79.2%和90.7%的平均成功率,显著优于现有方法。同时,X-WAM生成的高保真4D重建和生成在视觉和几何指标上均超越了现有方法,证明了其在动作执行效率和世界建模质量方面的优越性。这些实验结果表明,X-WAM是一种有效的统一4D世界模型。
🎯 应用场景
X-WAM具有广泛的应用前景,例如在机器人自主导航、智能制造、虚拟现实和增强现实等领域。它可以帮助机器人更好地理解和预测周围环境,从而实现更安全、更高效的自主行为。此外,X-WAM还可以用于生成逼真的虚拟环境,为用户提供沉浸式的体验。该研究的未来影响在于推动机器人和人工智能技术的发展,促进人机协作和智能化应用的普及。
📄 摘要(原文)
We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.