DeMoGen: Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models
作者: Jianrong Zhang, Hehe Fan, Yi Yang
分类: cs.CV
发布日期: 2025-12-26
备注: Project page: https://jiro-zhang.github.io/DeMoGen/
💡 一句话要点
DeMoGen:提出一种基于能量的扩散模型,用于分解式人体运动生成。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动生成 分解式学习 能量模型 扩散模型 文本到运动 运动组合 运动原语 组合训练
📋 核心要点
- 现有文本到运动生成方法缺乏对运动内在组合结构的理解,难以生成复杂和泛化的运动。
- DeMoGen利用基于能量的扩散模型,通过组合训练范式学习将复杂运动分解为语义相关的运动原语。
- 实验表明,DeMoGen能够解耦可重用的运动原语,并灵活地重新组合生成多样化的新运动。
📝 摘要(中文)
人体运动具有组合性,复杂的行为可以被描述为简单原语的组合。然而,现有方法主要集中于正向建模,例如学习从文本到运动的整体映射,或从一组运动概念组合成复杂的运动。本文考虑逆向视角:将整体运动分解为语义上有意义的子组件。我们提出了DeMoGen,一种用于分解学习的组合训练范式,它采用基于能量的扩散模型。这种能量公式直接捕获多个运动概念的组合分布,使模型能够在不依赖于单个概念的真实运动的情况下发现它们。在该范式中,我们引入了三种训练变体来鼓励对运动的分解理解:1. DeMoGen-Exp显式地训练分解的文本提示;2. DeMoGen-OSS执行正交自监督分解;3. DeMoGen-SC强制原始和分解的文本嵌入之间的语义一致性。这些变体使我们的方法能够从复杂的运动序列中解耦可重用的运动原语。我们还证明了分解的运动概念可以灵活地重新组合以生成多样化和新颖的运动,从而推广到训练分布之外。此外,我们构建了一个文本分解的数据集来支持组合训练,作为一个扩展资源来促进文本到运动的生成和运动组合。
🔬 方法详解
问题定义:现有文本到运动生成方法通常采用整体映射的方式,直接学习从文本到运动的转换,忽略了人体运动的组合特性。这导致模型难以理解复杂运动的内在结构,泛化能力受限,难以生成训练集中未出现的运动组合。
核心思路:DeMoGen的核心思路是将复杂的运动分解为多个语义上有意义的运动原语,并学习这些原语之间的组合关系。通过这种分解式学习,模型能够更好地理解运动的内在结构,从而提高生成复杂运动和泛化到新运动组合的能力。
技术框架:DeMoGen采用基于能量的扩散模型作为其核心框架。整体流程如下:首先,将输入的文本描述分解为多个子描述,每个子描述对应一个运动原语。然后,利用能量模型学习这些运动原语的组合分布。在生成阶段,模型可以根据输入的文本描述,生成对应的运动原语,并将它们组合成完整的运动序列。DeMoGen包含三个主要的训练变体:DeMoGen-Exp、DeMoGen-OSS和DeMoGen-SC,分别从不同的角度鼓励模型学习运动的分解表示。
关键创新:DeMoGen的关键创新在于其组合训练范式,它允许模型在没有单个概念的真实运动的情况下学习运动原语。通过基于能量的扩散模型,DeMoGen能够直接捕获多个运动概念的组合分布,从而实现运动的分解和重组。此外,三种训练变体(DeMoGen-Exp、DeMoGen-OSS和DeMoGen-SC)进一步增强了模型对运动分解的理解。
关键设计:DeMoGen-Exp显式地训练分解的文本提示,鼓励模型学习文本描述和运动原语之间的对应关系。DeMoGen-OSS执行正交自监督分解,通过约束分解后的运动原语之间的正交性,来提高运动原语的独立性和可解释性。DeMoGen-SC强制原始和分解的文本嵌入之间的语义一致性,确保分解后的运动原语能够准确地反映原始文本描述的语义信息。论文还构建了一个文本分解的数据集,用于支持组合训练。
🖼️ 关键图片
📊 实验亮点
DeMoGen在HumanML3D和KIT-ML数据集上进行了评估,实验结果表明,DeMoGen能够生成比现有方法更逼真、更多样化的运动。具体来说,DeMoGen在R-Precision和FID等指标上均取得了显著的提升,表明其生成的运动与真实运动更加接近,并且具有更高的多样性。此外,DeMoGen还展示了其泛化到训练集中未出现的运动组合的能力。
🎯 应用场景
DeMoGen在虚拟现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于生成逼真的人体运动,例如根据文本描述生成舞蹈动作、体育运动或日常活动。此外,DeMoGen还可以用于运动编辑和控制,允许用户通过修改文本描述来调整和修改生成的运动。
📄 摘要(原文)
Human motions are compositional: complex behaviors can be described as combinations of simpler primitives. However, existing approaches primarily focus on forward modeling, e.g., learning holistic mappings from text to motion or composing a complex motion from a set of motion concepts. In this paper, we consider the inverse perspective: decomposing a holistic motion into semantically meaningful sub-components. We propose DeMoGen, a compositional training paradigm for decompositional learning that employs an energy-based diffusion model. This energy formulation directly captures the composed distribution of multiple motion concepts, enabling the model to discover them without relying on ground-truth motions for individual concepts. Within this paradigm, we introduce three training variants to encourage a decompositional understanding of motion: 1. DeMoGen-Exp explicitly trains on decomposed text prompts; 2. DeMoGen-OSS performs orthogonal self-supervised decomposition; 3. DeMoGen-SC enforces semantic consistency between original and decomposed text embeddings. These variants enable our approach to disentangle reusable motion primitives from complex motion sequences. We also demonstrate that the decomposed motion concepts can be flexibly recombined to generate diverse and novel motions, generalizing beyond the training distribution. Additionally, we construct a text-decomposed dataset to support compositional training, serving as an extended resource to facilitate text-to-motion generation and motion composition.