MotuBrain: An Advanced World Action Model for Robot Control

📄 arXiv: 2604.27792v1 📥 PDF

作者: MotuBrain Team, Chendong Xiang, Fan Bao, Haitian Liu, Hengkai Tan, Hongzhe Bi, James Li, Jiabao Liu, Jingrui Pang, Kiro Jing, Louis Liu, Mengchen Cai, Rongxu Cui, Ruowen Zhao, Runqing Wang, Shuhe Huang, Yao Feng, Yinze Rong, Zeyuan Wang, Jun Zhu

分类: cs.RO

发布日期: 2026-04-30


💡 一句话要点

MotuBrain:用于机器人控制的先进世界行为模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 机器人控制 多模态学习 视频生成 动作预测

📋 核心要点

  1. VLA模型缺乏对世界动态的细粒度建模能力,限制了其在复杂环境中的应用。
  2. MotuBrain提出了一种统一的多模态生成模型,联合建模视频和动作,实现多种推理模式。
  3. MotuBrain通过统一多视角表示和高效推理堆栈,实现了实时部署所需的加速。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但通常缺乏对世界动态的细粒度建模。最近的研究探索了视频生成模型作为世界建模的基础,从而产生了统一的世界行为模型(WAM),该模型联合建模视觉动态和动作。我们提出了MotuBrain,一个统一的多模态生成模型,它在UniDiffuser公式下,使用三流混合Transformer架构,联合建模视频和动作。单个模型支持多种推理模式,包括策略学习、世界建模、视频生成、逆动力学和联合视频-动作预测,同时扩展到异构多模态数据,例如仅视频和跨具身机器人数据。为了提高实际应用性,MotuBrain引入了统一的多视角表示、显式的语言-动作耦合以及高效的推理堆栈,实现了超过50倍的实时部署加速。

🔬 方法详解

问题定义:现有视觉-语言-动作模型(VLA)虽然在语义泛化方面表现良好,但缺乏对世界动态的细粒度建模能力。这限制了它们在需要精确预测和控制的机器人应用中的表现。此外,现有方法难以有效处理异构多模态数据,例如来自不同机器人的数据或仅包含视频的数据。

核心思路:MotuBrain的核心思路是构建一个统一的多模态生成模型,该模型能够联合建模视频和动作,从而捕捉世界动态的细粒度信息。通过使用UniDiffuser框架和混合Transformer架构,模型可以同时处理视觉和动作信息,并支持多种推理模式,例如策略学习、世界建模和视频生成。

技术框架:MotuBrain采用UniDiffuser框架,并使用三流混合Transformer架构。该架构包含三个独立的Transformer流,分别处理视频、动作和语言信息。这些流通过交叉注意力机制进行交互,从而实现多模态信息的融合。模型还引入了统一的多视角表示,以处理来自不同视角的视频数据。推理阶段,模型采用高效的推理堆栈,优化计算流程,实现实时部署。

关键创新:MotuBrain的关键创新在于其统一的多模态生成模型,该模型能够联合建模视频和动作,并支持多种推理模式。此外,模型还引入了统一的多视角表示和高效的推理堆栈,从而提高了实际应用性。与现有方法相比,MotuBrain能够更准确地预测世界动态,并支持更复杂的机器人控制任务。

关键设计:MotuBrain的关键设计包括:1) 使用UniDiffuser框架进行视频和动作的联合建模;2) 采用三流混合Transformer架构进行多模态信息融合;3) 引入统一的多视角表示处理多视角数据;4) 设计高效的推理堆栈加速推理过程。具体的损失函数和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotuBrain在多个任务上取得了显著的性能提升。实验结果表明,MotuBrain在视频生成、动作预测和策略学习等方面均优于现有方法。特别是在实时部署方面,MotuBrain通过高效的推理堆栈实现了超过50倍的加速,使其能够应用于实际的机器人控制场景。

🎯 应用场景

MotuBrain具有广泛的应用前景,包括机器人控制、自动驾驶、游戏AI等领域。它可以用于训练更智能的机器人,使其能够更好地理解和适应周围环境,并执行复杂的任务。此外,MotuBrain还可以用于生成逼真的虚拟环境,用于训练和测试AI模型。

📄 摘要(原文)

Vision-Language-Action (VLA) models achieve strong semantic generalization but often lack fine-grained modeling of world dynamics. Recent work explores video generation models as a foundation for world modeling, leading to unified World Action Models (WAMs) that jointly model visual dynamics and actions. We present MotuBrain, a unified multimodal generative model that jointly models video and action under a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture. A single model supports multiple inference modes, including policy learning, world modeling, video generation, inverse dynamics, and joint video-action prediction, while scaling to heterogeneous multimodal data such as video-only and cross-embodiment robot data. To improve real-world applicability, MotuBrain introduces a unified multiview representation, explicit language-action coupling, and an efficient inference stack, achieving over 50x speedup for real-time deployment.