Kimodo: Scaling Controllable Human Motion Generation

作者: Davis Rempe, Mathis Petrovich, Ye Yuan, Haotian Zhang, Xue Bin Peng, Yifeng Jiang, Tingwu Wang, Umar Iqbal, David Minor, Michael de Ruyter, Jiefeng Li, Chen Tessler, Edy Lim, Eugene Jeong, Sam Wu, Ehsan Hassani, Michael Huang, Jin-Bey Yu, Chaeyeon Chung, Lina Song, Olivier Dionne, Jan Kautz, Simon Yuen, Sanja Fidler

分类: cs.CV, cs.GR, cs.RO

发布日期: 2026-03-16

备注: Project page: https://research.nvidia.com/labs/sil/projects/kimodo/

💡 一句话要点

Kimodo：基于大规模运动捕捉数据的可控人体运动生成模型

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人体运动生成 扩散模型 运动捕捉 运动学约束 可控生成

📋 核心要点

现有运动生成模型受限于公开运动捕捉数据集规模小，导致运动质量、控制精度和泛化能力不足。
Kimodo模型通过在700小时光学运动捕捉数据上训练，并采用两阶段去噪器架构，实现了高质量和可控的运动生成。
实验表明，Kimodo模型在运动质量和控制精度上均有提升，并分析了数据集和模型规模对性能的影响。

📝 摘要（中文）

高质量的人体运动数据在机器人、仿真和娱乐等应用中变得越来越重要。最近的生成模型提供了一种潜在的数据来源，可以通过文本提示或姿势的运动学约束等直观输入来实现人体运动合成。然而，公共运动捕捉数据集的规模较小，限制了这些模型的运动质量、控制精度和泛化能力。本文介绍了Kimodo，一个富有表现力且可控的运动学运动扩散模型，该模型在700小时的光学运动捕捉数据上进行训练。我们的模型生成高质量的运动，同时可以通过文本和全面的运动学约束套件轻松控制，包括全身关键帧、稀疏关节位置/旋转、2D路标点和密集2D路径。这得益于精心设计的运动表示和两阶段去噪器架构，该架构分解了根和身体预测，以最大限度地减少运动伪影，同时允许灵活的约束条件。在大规模运动捕捉数据集上的实验证明了关键设计决策的合理性，并分析了数据集大小和模型大小的缩放如何影响性能。

🔬 方法详解

问题定义：现有的人体运动生成模型依赖于有限规模的运动捕捉数据集，这限制了生成运动的真实感、可控性和泛化能力。特别是在需要精确控制的场景下，例如机器人控制或动画制作，现有模型的表现往往不尽如人意。

核心思路：Kimodo的核心思路是利用大规模的运动捕捉数据训练一个扩散模型，并结合精心设计的运动表示和两阶段去噪器架构，从而实现高质量和可控的人体运动生成。通过分解根节点和身体的预测，可以有效地减少运动伪影，并允许灵活的约束条件。

技术框架：Kimodo采用两阶段去噪器架构。第一阶段预测全局根节点的运动，第二阶段预测身体的局部运动。模型以文本提示和各种运动学约束作为输入，包括全身关键帧、稀疏关节位置/旋转、2D路标点和密集2D路径。整个框架基于扩散模型，通过逐步去噪的方式生成最终的运动序列。

关键创新：Kimodo的关键创新在于其运动表示和两阶段去噪器架构。运动表示能够有效地编码人体运动的复杂性，而两阶段去噪器架构则能够解耦全局运动和局部运动，从而提高生成运动的质量和可控性。此外，Kimodo还利用大规模的运动捕捉数据进行训练，从而显著提升了模型的泛化能力。

关键设计：Kimodo的关键设计包括：1) 运动表示：采用一种紧凑且富有表现力的运动表示，能够有效地编码人体运动的姿态和运动信息。2) 两阶段去噪器：第一阶段预测根节点的全局运动，第二阶段预测身体的局部运动，从而解耦全局运动和局部运动。3) 损失函数：采用多种损失函数，包括运动学损失、对抗损失和多样性损失，从而保证生成运动的真实感、可控性和多样性。4) 网络结构：采用Transformer网络作为去噪器的主要组成部分，能够有效地捕捉运动序列中的时序依赖关系。

🖼️ 关键图片

📊 实验亮点

Kimodo在700小时的光学运动捕捉数据上进行训练，显著提升了运动生成的质量和可控性。实验结果表明，Kimodo在运动质量、控制精度和泛化能力方面均优于现有的方法。例如，在给定文本提示的情况下，Kimodo能够生成更加逼真和自然的运动序列。此外，Kimodo还能够根据用户的运动学约束，生成满足特定要求的运动序列。

🎯 应用场景

Kimodo具有广泛的应用前景，包括机器人控制、虚拟现实、游戏开发、动画制作和运动分析等领域。它可以用于生成逼真的人体运动，从而提高虚拟角色的真实感和交互性。此外，Kimodo还可以用于辅助机器人进行运动规划和控制，从而提高机器人的运动能力和适应性。未来，Kimodo有望成为一个通用的人体运动生成平台，为各种应用提供高质量的运动数据。

📄 摘要（原文）

High-quality human motion data is becoming increasingly important for applications in robotics, simulation, and entertainment. Recent generative models offer a potential data source, enabling human motion synthesis through intuitive inputs like text prompts or kinematic constraints on poses. However, the small scale of public mocap datasets has limited the motion quality, control accuracy, and generalization of these models. In this work, we introduce Kimodo, an expressive and controllable kinematic motion diffusion model trained on 700 hours of optical motion capture data. Our model generates high-quality motions while being easily controlled through text and a comprehensive suite of kinematic constraints including full-body keyframes, sparse joint positions/rotations, 2D waypoints, and dense 2D paths. This is enabled through a carefully designed motion representation and two-stage denoiser architecture that decomposes root and body prediction to minimize motion artifacts while allowing for flexible constraint conditioning. Experiments on the large-scale mocap dataset justify key design decisions and analyze how the scaling of dataset size and model size affect performance.

Kimodo: Scaling Controllable Human Motion Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理