Coordinating Multiple Conditions for Trajectory-Controlled Human Motion Generation
作者: Deli Cai, Haoyang Ma, Changxing Ding
分类: cs.CV, cs.AI
发布日期: 2026-05-13
💡 一句话要点
提出CMC框架,解决轨迹控制人体动作生成中多条件冲突与表示不一致问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体动作生成 轨迹控制 扩散模型 多模态融合 动作补全 解耦框架 选择性修复
📋 核心要点
- 现有轨迹控制人体动作生成方法难以协调文本和轨迹条件,导致动作质量下降或轨迹跟踪不准确。
- CMC框架采用解耦策略,先生成轨迹控制下的简化关节运动,再进行文本引导的全身动作补全。
- 实验结果表明,CMC在HumanML3D和KIT数据集上实现了最先进的控制精度和动作质量。
📝 摘要(中文)
本文提出了一种名为CMC的解耦框架,用于轨迹控制的人体动作生成,旨在解决现有方法中存在的文本和轨迹条件冲突以及冗余运动表示导致的不一致性问题。CMC采用分而治之的策略,包含轨迹控制和动作补全两个级联阶段。第一阶段,基于给定的轨迹,扩散模型生成受控关节的简化表示,确保准确和稳定的轨迹跟踪。第二阶段,文本条件扩散修复模型使用第一阶段的简化表示作为部分观测,生成完整的全身动作。为了缓解有限的修复训练数据引起的过拟合,引入了选择性修复机制(SIM),在训练期间交替进行文本到动作生成和动作修复任务。在HumanML3D和KIT数据集上的实验表明,CMC在控制精度和运动质量方面均达到了最先进的性能,证明了其在协调多模态条件和表示方面的有效性。
🔬 方法详解
问题定义:轨迹控制人体动作生成旨在根据文本描述和空间轨迹合成逼真的人体动作。现有方法的主要痛点在于:一是文本和轨迹条件之间存在冲突,干扰了去噪过程,导致动作质量下降或轨迹跟踪不准确;二是冗余的运动表示引入了运动组件之间的不一致性,导致轨迹控制期间的不稳定性。
核心思路:本文的核心思路是采用“分而治之”的策略,将轨迹控制和动作生成解耦。首先,利用轨迹信息生成关键关节的运动轨迹,确保轨迹的准确性;然后,利用文本信息对剩余的身体部位进行动作补全,从而避免了多模态信息之间的直接冲突。
技术框架:CMC框架包含两个级联阶段:轨迹控制阶段和动作补全阶段。在轨迹控制阶段,使用扩散模型根据给定的轨迹生成受控关节的简化表示。在动作补全阶段,使用文本条件扩散修复模型,以第一阶段生成的简化表示作为部分观测,生成完整的全身动作。
关键创新:最重要的技术创新点是解耦的框架设计以及选择性修复机制(SIM)。解耦框架有效协调了文本和轨迹条件,避免了直接冲突。SIM通过交替进行文本到动作生成和动作修复任务,缓解了有限的修复训练数据引起的过拟合问题。
关键设计:选择性修复机制(SIM)是关键设计之一,它在训练过程中交替进行文本到动作生成和动作修复任务,从而有效地利用了数据,避免了过拟合。具体的损失函数和网络结构细节在论文中进行了详细描述,但摘要中未提供具体参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CMC框架在HumanML3D和KIT数据集上均取得了state-of-the-art的性能。具体而言,CMC在控制精度和运动质量方面均优于现有方法,证明了其在协调多模态条件和表示方面的有效性。虽然摘要中没有给出具体的数值提升,但强调了其在两个关键指标上的领先地位。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,实现更加自然和可控的虚拟人物动作生成。例如,在游戏中,可以根据玩家输入的文本指令和指定的运动轨迹,生成角色执行特定动作的动画,提升游戏的交互性和沉浸感。未来,该技术有望进一步扩展到机器人控制领域,实现更加智能和灵活的机器人运动规划。
📄 摘要(原文)
Trajectory-controlled human motion generation aims to synthesize realistic human motions conditioned on both textual descriptions and spatial trajectories. However, existing methods suffer from two critical limitations: first, the conflict between text and trajectory conditions disrupts the denoising process, resulting in compromised motion quality or inaccurate trajectory following; second, the use of redundant motion representations introduces inconsistencies between motion components, leading to instability during trajectory control. To address these challenges, we propose CMC, a decoupled framework that effectively coordinates text and trajectory conditions through a divide-and-conquer strategy. CMC follows a divide-and-conquer paradigm, comprising two cascaded stages: Trajectory Control and Motion Completion. In the first stage, a diffusion model generates a simplified representation of the controlled joints under trajectory guidance, based on the given trajectories, ensuring accurate and stable trajectory following. In the second stage, a text-conditioned diffusion inpainting model generates full-body motions using the simplified representation from the first stage as partial observations. To mitigate overfitting caused by limited inpainting training data, we further introduce the Selective Inpainting Mechanism (SIM), which alternates between text-to-motion generation and motion inpainting tasks during training. Experiments on HumanML3D and KIT datasets demonstrate that CMC achieves state-of-the-art performance in control accuracy and motion quality, demonstrating its effectiveness in coordinating multimodal conditions and representations.