Shape Conditioned Human Motion Generation with Diffusion Model

📄 arXiv: 2405.06778v1 📥 PDF

作者: Kebing Xue, Hyewon Seo

分类: cs.CV, cs.GR

发布日期: 2024-05-10


💡 一句话要点

提出基于扩散模型的形状条件人体运动生成方法,直接生成网格运动序列。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动生成 扩散模型 网格表示 谱分析 图拉普拉斯算子 谱-时间自编码器 条件生成 计算机图形学

📋 核心要点

  1. 现有基于骨骼的人体运动生成方法忽略了骨骼、关节和肌肉之间的内在联系,限制了生成结果的真实性和多样性。
  2. 提出形状条件运动扩散模型(SMD),直接以网格格式生成运动序列,并利用图拉普拉斯算子和谱-时间自编码器高效处理网格数据。
  3. 实验结果表明,SMD在生成逼真运动方面表现出色,并在文本到运动和动作到运动任务中取得了与现有技术相当的性能。

📝 摘要(中文)

人体运动合成是计算机图形学和计算机视觉中的一项重要任务。现有方法主要关注文本、动作类别或音频等条件信号来指导生成过程,但大多采用基于骨骼的姿态表示,需要额外的蒙皮处理才能生成可渲染的网格。考虑到人体运动是骨骼、关节和肌肉复杂相互作用的结果,仅考虑骨骼进行生成可能会忽略它们内在的相互依赖性,从而限制生成结果的多样性和精确性。为了解决这个问题,我们提出了一种形状条件运动扩散模型(SMD),该模型能够直接以网格格式生成运动序列,并以指定的target网格为条件。在SMD中,输入网格使用图拉普拉斯算子转换为谱系数,以有效地表示网格。此外,我们提出了一种谱-时间自编码器(STAE)来利用谱域中的跨时间依赖性。大量的实验评估表明,与最先进的方法相比,SMD不仅能产生生动逼真的运动,而且在文本到运动和动作到运动任务中也取得了具有竞争力的性能。

🔬 方法详解

问题定义:现有的人体运动生成方法通常依赖于骨骼姿态作为中间表示,然后通过蒙皮操作生成最终的网格模型。这种方法忽略了人体运动中骨骼、关节和肌肉之间的复杂相互作用,导致生成的运动不够真实自然,且多样性受限。此外,蒙皮操作本身也增加了计算复杂度和潜在的误差来源。因此,需要一种能够直接生成网格运动序列,并能有效捕捉人体运动内在复杂性的方法。

核心思路:论文的核心思路是利用扩散模型直接在网格数据上进行运动生成,避免了中间骨骼姿态表示的限制。通过将网格数据转换到谱域,可以更有效地表示网格的形状信息,并利用谱-时间自编码器捕捉运动序列中的时间依赖性。这种方法能够更好地模拟人体运动的复杂性,从而生成更真实、自然的运动序列。

技术框架:SMD模型主要包含以下几个阶段:1) 网格数据预处理:使用图拉普拉斯算子将输入网格转换为谱系数,得到网格的谱表示。2) 谱-时间自编码器(STAE):STAE用于学习谱域中运动序列的潜在表示,捕捉跨时间依赖性。3) 扩散模型:扩散模型以STAE学习到的潜在表示为条件,生成新的运动序列。整个框架采用端到端的方式进行训练。

关键创新:该论文的关键创新在于:1) 提出了一种形状条件运动扩散模型(SMD),能够直接生成网格运动序列,无需中间骨骼姿态表示。2) 提出了一种谱-时间自编码器(STAE),用于学习谱域中运动序列的潜在表示,有效捕捉了运动序列中的时间依赖性。3) 将图拉普拉斯算子应用于网格数据的谱表示,提高了网格数据处理的效率。

关键设计:在网格数据预处理阶段,图拉普拉斯算子的选择和谱系数的截断是关键参数。在STAE中,网络结构的设计需要充分考虑谱域数据的特点,例如可以使用卷积神经网络或循环神经网络来捕捉谱域中的空间和时间依赖性。扩散模型的训练需要仔细调整噪声schedule和采样策略,以保证生成结果的质量和多样性。损失函数的设计需要考虑生成结果的真实性和与条件网格的匹配程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SMD模型在生成逼真运动方面表现出色,能够生成与目标网格形状相符的自然运动序列。在文本到运动和动作到运动任务中,SMD模型取得了与现有最先进方法相当的性能,证明了该方法的有效性。具体的性能数据和对比基线在论文中有详细描述。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,能够生成更加真实自然的人体运动,提升用户体验。例如,在虚拟现实游戏中,可以根据用户的动作生成逼真的虚拟角色运动;在动画制作中,可以快速生成各种复杂的人体运动序列,提高制作效率。此外,该方法还可以用于运动分析和康复训练等领域。

📄 摘要(原文)

Human motion synthesis is an important task in computer graphics and computer vision. While focusing on various conditioning signals such as text, action class, or audio to guide the generation process, most existing methods utilize skeleton-based pose representation, requiring additional skinning to produce renderable meshes. Given that human motion is a complex interplay of bones, joints, and muscles, considering solely the skeleton for generation may neglect their inherent interdependency, which can limit the variability and precision of the generated results. To address this issue, we propose a Shape-conditioned Motion Diffusion model (SMD), which enables the generation of motion sequences directly in mesh format, conditioned on a specified target mesh. In SMD, the input meshes are transformed into spectral coefficients using graph Laplacian, to efficiently represent meshes. Subsequently, we propose a Spectral-Temporal Autoencoder (STAE) to leverage cross-temporal dependencies within the spectral domain. Extensive experimental evaluations show that SMD not only produces vivid and realistic motions but also achieves competitive performance in text-to-motion and action-to-motion tasks when compared to state-of-the-art methods.