MotuBrain: An Advanced World Action Model for Robot Control

📄 arXiv: 2604.27792v2 📥 PDF

作者: MotuBrain Team, Chendong Xiang, Fan Bao, Haitian Liu, Hengkai Tan, Hongzhe Bi, James Li, Jiabao Liu, Jingrui Pang, Kiro Jing, Louis Liu, Mengchen Cai, Rongxu Cui, Ruowen Zhao, Runqing Wang, Shuhe Huang, Yao Feng, Yinze Rong, Zeyuan Wang, Jun Zhu

分类: cs.RO

发布日期: 2026-04-30 (更新: 2026-05-01)


💡 一句话要点

MotuBrain:用于机器人控制的先进世界行动模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界行动模型 机器人控制 视觉-语言-动作模型 UniDiffuser 跨具身学习

📋 核心要点

  1. 现有VLA模型缺乏对世界动态的细粒度建模,限制了其在复杂机器人控制任务中的应用。
  2. MotuBrain提出了一种统一的世界行动模型,通过UniDiffuser框架联合建模视频和动作,实现多任务和跨具身泛化。
  3. 实验表明,MotuBrain在多个机器人控制任务上取得了显著的性能提升,并实现了高效的实时推理。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在语义上具有良好的泛化能力,但通常缺乏对世界动态的细粒度建模。我们提出了MotuBrain,一个统一的世界行动模型,它在UniDiffuser框架下,使用三流混合Transformer架构联合建模视频和动作。单个模型支持策略学习、世界建模、视频生成、逆动力学和联合视频-动作预测,同时扩展到异构多模态数据,如纯视频、任务无关和跨具身机器人数据。在Motus的基础上,MotuBrain进一步引入了统一的多视角建模、用于更强语言-动作耦合的独立文本流、共享的跨具身动作表示,以及用于长时程真实世界控制的有效后训练和部署方案。我们的推理堆栈结合了步长缩减、编译、FP8量化、DiT缓存、V2A风格的纯动作推理和实时分块闭环执行,与朴素基线相比实现了超过50倍的加速,并达到高达11 Hz的推理速度。实验表明,MotuBrain在干净和随机设置下的RoboTwin 2.0上分别实现了95.8%和96.1%的平均成功率,在我们的WorldArena比较中获得了最强的EWMScore,并且仅用50-100条轨迹即可适应新的类人机器人。这些结果表明,统一的世界行动模型可以在通用性、预测准确性和真实世界可部署性方面进行扩展。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型虽然在语义理解上表现良好,但对世界动态的建模不够精细,难以准确预测复杂环境下的机器人行为。这限制了它们在需要精确控制和长期规划的任务中的应用。现有方法通常难以同时处理多种模态的数据,并且在跨不同机器人平台时泛化能力较弱。

核心思路:MotuBrain的核心思路是构建一个统一的世界行动模型,该模型能够同时理解和预测视频和动作,从而更准确地模拟世界动态。通过使用UniDiffuser框架和混合Transformer架构,模型可以学习到视频和动作之间的复杂关系,并支持多种任务,如策略学习、世界建模和视频生成。这种统一的建模方法使得模型能够更好地泛化到不同的环境和机器人平台。

技术框架:MotuBrain的整体架构是一个三流混合Transformer模型,基于UniDiffuser框架。它包含三个主要的数据流:视频流、动作流和文本流。视频流处理视觉输入,动作流处理机器人动作指令,文本流处理语言描述。这三个数据流通过混合Transformer架构进行融合,从而实现多模态信息的联合建模。模型还采用了多视角建模,以提高对环境的理解能力。

关键创新:MotuBrain的关键创新在于其统一的世界行动模型,该模型能够同时建模视频和动作,并支持多种任务。此外,模型还引入了独立的文本流,以增强语言和动作之间的耦合。另一个创新点是共享的跨具身动作表示,这使得模型能够更好地泛化到不同的机器人平台。最后,模型还提出了一种高效的后训练和部署方案,以实现长时程真实世界控制。

关键设计:MotuBrain的关键设计包括:1) 使用UniDiffuser框架进行视频和动作的联合建模;2) 采用三流混合Transformer架构,融合视频、动作和文本信息;3) 引入多视角建模,提高环境理解能力;4) 设计共享的跨具身动作表示,增强泛化能力;5) 采用步长缩减、编译、FP8量化、DiT缓存等技术,优化推理效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotuBrain在RoboTwin 2.0数据集上取得了显著的成果,在干净和随机设置下分别达到了95.8%和96.1%的平均成功率。在WorldArena比较中,MotuBrain获得了最强的EWMScore。此外,MotuBrain仅用50-100条轨迹即可适应新的类人机器人,展示了其强大的泛化能力。通过优化推理堆栈,MotuBrain实现了超过50倍的加速,并达到了高达11 Hz的推理速度。

🎯 应用场景

MotuBrain具有广泛的应用前景,包括机器人自主导航、智能制造、家庭服务机器人等领域。它可以用于训练机器人执行复杂的任务,例如物体抓取、装配和路径规划。此外,MotuBrain还可以用于虚拟现实和增强现实应用,例如生成逼真的机器人动画和模拟机器人行为。该研究的实际价值在于提高了机器人控制的精度和效率,并降低了机器人开发的成本。

📄 摘要(原文)

Vision-Language-Action (VLA) models generalize semantically well but often lack fine-grained modeling of world dynamics. We present MotuBrain, a unified World Action Model that jointly models video and action under a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture. A single model supports policy learning, world modeling, video generation, inverse dynamics, and joint video-action prediction, while scaling to heterogeneous multimodal data such as video-only, task-agnostic, and cross-embodiment robot data. Building on Motus, MotuBrain further introduces unified multiview modeling, an independent text stream for stronger language-action coupling, a shared cross-embodiment action representation, and an efficient post-training and deployment recipe for long-horizon real-world control. Our inference stack combines step reduction, compilation, FP8 quantization, DiT caching, V2A-style action-only inference, and real-time chunked closed-loop execution, achieving over 50x speedup over a naive baseline and up to 11 Hz inference. Experimentally, MotuBrain achieves 95.8% and 96.1% average success on RoboTwin 2.0 under clean and randomized settings, respectively, attains the strongest reported EWMScore in our WorldArena comparison, and adapts to new humanoid embodiments with only 50--100 trajectories. These results show that unified world action models can scale in generality, predictive accuracy, and real-world deployability.