MotionBricks: Scalable Real-Time Motions with Modular Latent Generative Model and Smart Primitives

📄 arXiv: 2604.24833v1 📥 PDF

作者: Tingwu Wang, Olivier Dionne, Michael De Ruyter, David Minor, Davis Rempe, Kaifeng Zhao, Mathis Petrovich, Ye Yuan, Chenran Li, Zhengyi Luo, Brian Robison, Xavier Blackwell, Bernardo Antoniazzi, Xue Bin Peng, Yuke Zhu, Simon Yuen

分类: cs.RO, cs.AI, cs.GR, cs.LG

发布日期: 2026-04-27

备注: ACM Transactions on Graphics; SIGGRAPH 2026. Project page: https://nvlabs.github.io/motionbricks/


💡 一句话要点

MotionBricks:模块化潜在生成模型与智能原语实现可扩展的实时动作生成。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 动作生成 实时控制 模块化模型 智能原语 机器人控制

📋 核心要点

  1. 现有生成模型在实时性和可扩展性方面存在不足,难以满足工业应用对大量动作技能实时生成的需求。
  2. MotionBricks通过模块化的潜在生成模型和智能原语,实现了大规模数据集上的高质量实时动作生成与控制。
  3. 实验表明,MotionBricks在动作质量和实时性上均达到SOTA,并在动画制作和机器人控制中展现了应用潜力。

📝 摘要(中文)

本文提出了MotionBricks,一个大规模、实时的生成框架,旨在克服生成动作合成中实时交互控制的挑战。该框架包含两个关键部分:一是大规模模块化潜在生成骨干网络,专为鲁棒的实时动作生成而设计,能够用单个模型有效建模超过35万个动作片段的数据集;二是智能原语,为导航和对象交互提供统一、鲁棒和直观的创作界面,允许像组装积木一样设计应用,无需专业的动画知识。实验结果表明,MotionBricks在各种规模的开源和专有数据集上产生了最先进的动作质量,同时实现了15,000 FPS的实时吞吐量和2ms的延迟。该框架的灵活性和鲁棒性在一个完整的生产级动画演示中得到验证,涵盖了各种风格的导航和对象-场景交互。此外,MotionBricks还被部署在Unitree G1人形机器人上,展示了其在实时机器人控制方面的灵活性和泛化能力。

🔬 方法详解

问题定义:现有生成动作合成方法难以同时满足工业应用对实时性、可扩展性和精细控制的需求。具体来说,现有方法在实时计算约束下,动作质量和可扩展性会显著下降,并且缺乏对速度指令、风格选择和精确关键帧等多模态控制的良好支持。

核心思路:MotionBricks的核心思路是采用模块化的潜在生成模型,将复杂的动作空间分解为多个易于管理的模块,从而提高模型的训练效率和泛化能力。同时,引入智能原语作为统一的接口,简化了动作的创作和控制过程,使得非专业人士也能轻松地设计复杂的交互动作。

技术框架:MotionBricks框架主要包含两个核心模块:模块化潜在生成骨干网络和智能原语。模块化潜在生成骨干网络负责生成高质量的动作序列,它通过将动作空间分解为多个模块,并使用潜在变量来表示动作的变化。智能原语则提供了一组预定义的动作单元,例如行走、跳跃、抓取等,用户可以通过组合这些原语来创建复杂的交互动作。整个框架采用端到端的方式进行训练,以优化动作的质量和实时性。

关键创新:MotionBricks的关键创新在于其模块化的潜在生成模型和智能原语的结合。模块化设计使得模型能够处理大规模的动作数据集,并实现实时的动作生成。智能原语则简化了动作的创作和控制过程,使得非专业人士也能轻松地设计复杂的交互动作。这种结合使得MotionBricks在实时性、可扩展性和易用性方面都优于现有的方法。

关键设计:MotionBricks的模块化潜在生成模型采用了变分自编码器(VAE)的结构,其中编码器将动作序列映射到潜在空间,解码器则将潜在变量映射回动作序列。为了提高模型的训练效率,作者采用了对抗训练的方法,并设计了一种新的损失函数,用于鼓励模型生成高质量的动作序列。智能原语则采用了一种基于规则的方法进行设计,每个原语都包含一组预定义的参数,用户可以通过调整这些参数来控制原语的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotionBricks在多个数据集上进行了评估,包括开源数据集和专有数据集。实验结果表明,MotionBricks在动作质量方面达到了最先进的水平,并且能够实现15,000 FPS的实时吞吐量和2ms的延迟。此外,MotionBricks还被成功地部署在Unitree G1人形机器人上,展示了其在机器人控制方面的灵活性和泛化能力。

🎯 应用场景

MotionBricks具有广泛的应用前景,包括游戏开发、动画制作、虚拟现实、机器人控制等领域。它可以用于生成各种各样的角色动画,例如行走、跑步、跳跃、攻击等。此外,MotionBricks还可以用于控制机器人执行复杂的任务,例如导航、抓取、操作等。该研究有望降低动画制作和机器人控制的门槛,促进相关产业的发展。

📄 摘要(原文)

Despite transformative advances in generative motion synthesis, real-time interactive motion control remains dominated by traditional techniques. In this work, we identify two key challenges in bridging research and production: 1) Real-time scalability: Industry applications demand real-time generation of a vast repertoire of motion skills, while generative methods exhibit significant degradation in quality and scalability under real-time computation constraints, and 2) Integration: Industry applications demand fine-grained multi-modal control involving velocity commands, style selection, and precise keyframes, a need largely unmet by existing text- or tag-driven models. To overcome these limitations, we introduce MotionBricks: a large-scale, real-time generative framework with a two-fold solution. First, we propose a large-scale modular latent generative backbone tailored for robust real-time motion generation, effectively modeling a dataset of over 350,000 motion clips with a single model. Second, we introduce smart primitives that provide a unified, robust, and intuitive interface for authoring both navigation and object interaction. Applications can be designed in a plug-and-play manner like assembling bricks without expert animation knowledge. Quantitatively, we show that MotionBricks produces state-of-the-art motion quality on open-source and proprietary datasets of various scales, while also achieving a real-time throughput of 15,000 FPS with 2ms latency. We demonstrate the flexibility and robustness of MotionBricks in a complete production-level animation demo, covering navigation and object-scene interaction across various styles with a unified model. To showcase our framework's application beyond animation, we deploy MotionBricks on the Unitree G1 humanoid robot to demonstrate its flexibility and generalization for real-time robotic control.