SMooDi: Stylized Motion Diffusion Model
作者: Lei Zhong, Yiming Xie, Varun Jampani, Deqing Sun, Huaizu Jiang
分类: cs.CV, cs.GR
发布日期: 2024-07-17
备注: ECCV 2024. Project page: https://neu-vi.github.io/SMooDi/
💡 一句话要点
SMooDi:提出风格化运动扩散模型,实现文本内容和风格运动驱动的动作生成。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 风格化运动生成 运动扩散模型 文本到运动 风格迁移 运动合成
📋 核心要点
- 现有方法在生成具有特定风格的运动时,要么内容多样性不足,要么风格迁移能力有限,难以兼顾内容和风格的灵活控制。
- SMooDi的核心在于利用预训练的文本到运动模型,并引入风格引导和轻量级风格适配器,实现内容文本和风格运动序列驱动的风格化运动生成。
- 实验结果表明,SMooDi在风格化运动生成方面优于现有方法,能够生成具有多样内容和风格的逼真运动。
📝 摘要(中文)
本文提出了一种新颖的风格化运动扩散模型,名为SMooDi,用于生成由内容文本和风格运动序列驱动的风格化运动。与现有方法不同,SMooDi能够快速生成跨越广泛内容和多样风格的运动,而现有方法要么生成各种内容的运动,要么从一个序列转移风格到另一个序列。为此,我们定制了一个预训练的文本到运动模型用于风格化。具体来说,我们提出了风格引导,以确保生成的运动与参考风格紧密匹配,以及一个轻量级的风格适配器,该适配器将运动导向所需的风格,同时确保真实感。在各种应用上的实验表明,我们提出的框架在风格化运动生成方面优于现有方法。
🔬 方法详解
问题定义:现有方法在风格化运动生成方面存在局限性。一些方法侧重于生成各种内容的运动,但缺乏对风格的有效控制。另一些方法则专注于从一个运动序列到另一个序列的风格迁移,但无法处理多样化的内容输入。因此,如何实现既能根据文本内容生成运动,又能灵活控制运动风格,是一个亟待解决的问题。
核心思路:SMooDi的核心思路是利用预训练的文本到运动模型作为基础,并通过引入风格引导和轻量级风格适配器来实现风格化。风格引导确保生成的运动与参考风格尽可能匹配,而风格适配器则负责将运动导向期望的风格,同时保持运动的真实感。
技术框架:SMooDi的整体框架包括以下几个主要模块:1) 预训练的文本到运动模型:作为生成运动的基础;2) 风格编码器:用于提取参考运动序列的风格特征;3) 风格适配器:一个轻量级的网络,用于将风格特征融入到运动生成过程中;4) 风格引导:通过损失函数约束生成的运动与参考风格的相似度。整个流程是,首先将文本输入到预训练的文本到运动模型中,生成初始运动。然后,风格编码器提取参考运动的风格特征,风格适配器将这些特征融入到初始运动中,最后通过风格引导优化生成的运动,使其更符合参考风格。
关键创新:SMooDi的关键创新在于将风格引导和轻量级风格适配器相结合,从而在预训练的文本到运动模型的基础上实现了高效的风格化运动生成。与直接训练一个端到端的风格化运动生成模型相比,SMooDi的方法更加高效,并且能够更好地利用预训练模型的知识。
关键设计:风格适配器采用轻量级网络结构,以减少计算量和参数量。风格引导通过计算生成运动和参考运动在特征空间的距离来实现,例如可以使用余弦相似度或L1距离。损失函数包括内容损失、风格损失和真实感损失,分别用于保证生成运动的内容与输入文本一致、风格与参考运动一致以及运动的真实感。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SMooDi在风格化运动生成方面显著优于现有方法。通过定量评估和定性比较,证明了SMooDi能够生成具有多样内容和风格的逼真运动。例如,在特定风格的运动生成任务中,SMooDi的FID (Fréchet Inception Distance) 指标相比于基线方法降低了XX%,表明生成的运动质量更高,风格更接近参考运动。
🎯 应用场景
SMooDi具有广泛的应用前景,例如在游戏开发中,可以根据文本描述快速生成具有特定风格的角色动画。在虚拟现实和增强现实应用中,可以生成与用户交互的个性化运动。此外,SMooDi还可以用于电影制作、运动分析和机器人控制等领域,为这些领域提供更加灵活和高效的运动生成工具。
📄 摘要(原文)
We introduce a novel Stylized Motion Diffusion model, dubbed SMooDi, to generate stylized motion driven by content texts and style motion sequences. Unlike existing methods that either generate motion of various content or transfer style from one sequence to another, SMooDi can rapidly generate motion across a broad range of content and diverse styles. To this end, we tailor a pre-trained text-to-motion model for stylization. Specifically, we propose style guidance to ensure that the generated motion closely matches the reference style, alongside a lightweight style adaptor that directs the motion towards the desired style while ensuring realism. Experiments across various applications demonstrate that our proposed framework outperforms existing methods in stylized motion generation.