Text-driven Human Motion Generation with Motion Masked Diffusion Model

📄 arXiv: 2409.19686v1 📥 PDF

作者: Xingyu Chen

分类: cs.CV

发布日期: 2024-09-29


💡 一句话要点

提出运动掩码扩散模型(MMDM),增强文本驱动人体运动生成中时空关系学习能力

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本驱动运动生成 扩散模型 运动掩码 时空关系学习 人体运动 多模态生成

📋 核心要点

  1. 现有基于扩散模型的方法在文本驱动人体运动生成中缺乏对运动特征分布的有效拟合,导致FID分数不理想。
  2. MMDM通过运动掩码机制,显式增强扩散模型学习运动序列中时空关系的能力,从而提升运动质量。
  3. 实验结果表明,MMDM提出的掩码策略在平衡运动质量和文本-运动一致性方面是有效的。

📝 摘要(中文)

本文提出了一种用于文本驱动人体运动生成的新方法,称为运动掩码扩散模型(MMDM)。该方法旨在解决现有扩散模型在拟合人体运动特征分布方面的不足,从而提升生成结果的FID分数。核心思想是增强模型通过上下文推理学习时空语义间运动关系的能力。MMDM采用了一种新颖的运动掩码机制,显式地提升模型学习运动序列中关节间时空关系的能力。此外,考虑到人体运动数据的复杂性,设计了时间帧掩码和身体部位掩码两种掩码策略。在训练过程中,MMDM掩盖运动嵌入空间中的某些token,然后扩散解码器学习从掩码嵌入中恢复完整的运动序列。在HumanML3D和KIT-ML数据集上的实验表明,该掩码策略有效地平衡了运动质量和文本-运动一致性。

🔬 方法详解

问题定义:文本驱动的人体运动生成是一个多模态任务,旨在根据自然语言描述合成人体运动序列。现有基于扩散模型的方法在生成的多样性和多模态性方面表现出色,但与自回归方法相比,它们在拟合人体运动特征的分布方面存在不足,导致FID分数不理想。核心问题在于扩散模型缺乏通过上下文推理学习时空语义间运动关系的能力。

核心思路:本文的核心思路是通过引入运动掩码机制,显式地增强扩散模型学习运动序列中关节间时空关系的能力。通过掩码部分运动信息,迫使模型学习从上下文推断缺失信息,从而提升模型对运动模式的理解和生成能力。

技术框架:MMDM的整体框架基于扩散模型,主要包括运动编码器、掩码模块和扩散解码器。首先,运动编码器将运动序列转换为嵌入表示。然后,掩码模块根据时间帧掩码或身体部位掩码策略随机掩盖部分运动嵌入。最后,扩散解码器以带掩码的运动嵌入和文本描述作为条件,逐步去噪并生成完整的运动序列。

关键创新:MMDM的关键创新在于提出了运动掩码机制,并设计了时间帧掩码和身体部位掩码两种掩码策略。与传统的扩散模型相比,MMDM通过掩码操作,迫使模型学习运动序列中关节间的时空依赖关系,从而提升了运动生成的质量和真实感。

关键设计:时间帧掩码随机选择若干时间帧进行掩码,身体部位掩码随机选择若干身体部位进行掩码。掩码比例是一个重要的超参数,需要根据数据集和任务进行调整。损失函数包括扩散模型的去噪损失和文本-运动一致性损失,用于保证生成的运动既符合文本描述,又具有高质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMDM在HumanML3D和KIT-ML数据集上取得了显著的性能提升。具体而言,MMDM在FID分数上优于现有的扩散模型方法,同时保持了良好的文本-运动一致性。这表明MMDM提出的运动掩码机制能够有效地提升运动生成的质量和文本相关性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,实现根据文本描述自动生成逼真的人体运动。例如,在游戏中,可以根据玩家输入的指令,实时生成角色的动作;在动画制作中,可以根据剧本描述,快速生成人物的运动片段。该技术还有潜力应用于康复训练和运动分析等领域。

📄 摘要(原文)

Text-driven human motion generation is a multimodal task that synthesizes human motion sequences conditioned on natural language. It requires the model to satisfy textual descriptions under varying conditional inputs, while generating plausible and realistic human actions with high diversity. Existing diffusion model-based approaches have outstanding performance in the diversity and multimodality of generation. However, compared to autoregressive methods that train motion encoders before inference, diffusion methods lack in fitting the distribution of human motion features which leads to an unsatisfactory FID score. One insight is that the diffusion model lack the ability to learn the motion relations among spatio-temporal semantics through contextual reasoning. To solve this issue, in this paper, we proposed Motion Masked Diffusion Model \textbf{(MMDM)}, a novel human motion masked mechanism for diffusion model to explicitly enhance its ability to learn the spatio-temporal relationships from contextual joints among motion sequences. Besides, considering the complexity of human motion data with dynamic temporal characteristics and spatial structure, we designed two mask modeling strategies: \textbf{time frames mask} and \textbf{body parts mask}. During training, MMDM masks certain tokens in the motion embedding space. Then, the diffusion decoder is designed to learn the whole motion sequence from masked embedding in each sampling step, this allows the model to recover a complete sequence from incomplete representations. Experiments on HumanML3D and KIT-ML dataset demonstrate that our mask strategy is effective by balancing motion quality and text-motion consistency.