MotionWAM: Towards Foundation World Action Models for Real-Time Humanoid Loco-Manipulation
作者: Jia Zheng, Teli Ma, Yudong Fan, Zifan Wang, Shuo Yang, Junwei Liang
分类: cs.RO
发布日期: 2026-06-08
💡 一句话要点
提出MotionWAM以解决实时人形机器人运动控制问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人形机器人 运动控制 视频动态 动作模型 实时处理 统一动作空间 去噪特征 自主操作
📋 核心要点
- 现有的世界动作模型在实时人形机器人运动控制中速度过慢,且上肢与下肢的控制存在不一致性。
- 本文提出MotionWAM,通过中间去噪特征实现统一的动作空间,预测整个身体的运动标记,解决了上肢和下肢分离的问题。
- 在九个Unitree G1任务中,MotionWAM实时运行,整体成功率比基线提高超过30%,并实现了任务驱动的脚部交互。
📝 摘要(中文)
世界动作模型(WAMs)将视频动态先验与策略结合,已在桌面操作中取得良好效果,但由于高维视频-动作潜变量的迭代去噪,导致其在实时人形机器人运动控制中速度过慢。现有方法采用的层次化范式使得上肢和下肢的控制存在不一致性,限制了腿部的运动。本文提出MotionWAM,通过单个自我中心摄像头的中间去噪特征来驱动自主的人形机器人运动控制,替代了上肢和下肢的分离,预测覆盖整个身体的运动标记,实现了统一的动作空间。实验表明,MotionWAM在九个真实世界的Unitree G1任务中实时运行,整体成功率比同样演示微调的视觉-语言-动作基线提高超过30%。
🔬 方法详解
问题定义:本文旨在解决现有世界动作模型在实时人形机器人运动控制中的速度不足及上肢与下肢控制不一致的问题。现有方法的层次化控制使得腿部运动仅限于平衡,无法实现复杂的动作。
核心思路:MotionWAM通过单个自我中心摄像头的中间去噪特征来驱动运动控制,替代了传统的上肢和下肢分离控制,采用统一的动作空间来预测整个身体的运动标记。
技术框架:MotionWAM的整体架构包括三个阶段的学习框架,逐步适应视频世界模型到自我中心视觉动态及目标人形体现。主要模块包括视频动态先验、去噪特征提取和动作标记预测。
关键创新:MotionWAM的最大创新在于其统一的运动潜变量设计,能够同时覆盖步态、躯干运动、高度调节、脚部交互和手部操作,突破了传统方法的限制。
关键设计:在参数设置上,MotionWAM采用了适应性损失函数以优化整体动作预测,网络结构上结合了卷积神经网络与递归神经网络,以提升对视频动态的理解和处理能力。
🖼️ 关键图片
📊 实验亮点
MotionWAM在九个Unitree G1任务中实时运行,整体成功率比视觉-语言-动作基线提高超过30%。此外,MotionWAM能够实现任务驱动的脚部交互,这是传统上肢和下肢分离策略无法达到的。
🎯 应用场景
该研究的潜在应用领域包括人形机器人在家庭、服务业及工业环境中的自主操作能力。通过提升机器人在复杂环境中的运动和操作能力,MotionWAM有望在未来实现更高效的自动化解决方案,推动人形机器人技术的进步与普及。
📄 摘要(原文)
World Action Models (WAMs) couple a video dynamics prior to the policy and have shown encouraging results on tabletop manipulation, but iterative denoising over high-dimensional video-action latents leaves them too slow for real-time humanoid loco-manipulation. The problem is compounded by the dominant hierarchical paradigm, in which a high-level manipulation policy controls only the upper body while a low-level controller tracks coarse base commands -- placing upper and lower body in inconsistent action spaces and reducing the legs to balance-preserving locomotion. We present MotionWAM, a real-time WAM that drives autonomous humanoid loco-manipulation from a single egocentric camera by conditioning the policy on the intermediate denoising features of a video world model. MotionWAM replaces the upper-lower split with a unified motion latent and predicts whole-body motion tokens that jointly cover locomotion, torso motion, height regulation, foot interaction, and hand manipulation in a single action space. A three-stage learning framework progressively adapts the video world model to egocentric visual dynamics and to the target humanoid embodiment. On nine real-world Unitree G1 tasks, MotionWAM runs in real time, substantially outperforms Vision-Language-Action (VLA) baselines fine-tuned on the same demonstrations by over 30% in overall success rate, and executes task-driven foot interaction that decoupled upper-lower policies cannot reach. Our results suggest that video-pretrained WAMs can be lifted from tabletop manipulation to coordinated, human-like whole-body humanoid control.