MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer

📄 arXiv: 2504.08959v1 📥 PDF

作者: Yilin Wang, Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Xinxin Zuo, Juwei Lu, Hai Jiang, Li Cheng

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-04-11

备注: ICLR 2025 acceptance


💡 一句话要点

MotionDreamer:基于局部生成掩码Transformer的单参考动作到多实例动作合成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 动作生成 掩码Transformer 局部建模 动作捕捉 动画生成 运动合成 量化 分布正则化

📋 核心要点

  1. 现有动画生成方法在小数据集上容易过拟合,难以从单一动作参考生成多样化且高质量的动画。
  2. MotionDreamer采用局部掩码建模,学习动作内部模式,并结合量化token和分布正则化构建鲁棒的局部运动码本。
  3. 实验表明,MotionDreamer在动作保真度和多样性上优于现有GAN和Diffusion方法,并能有效应用于动作编辑等下游任务。

📝 摘要(中文)

生成式掩码Transformer在各种内容生成任务中表现出卓越的性能,这主要归功于它们能够有效地建模具有高度一致性的大规模数据集分布。然而,在动画领域,大型数据集并不总是可用。将生成式掩码建模应用于从单个MoCap参考生成多样化实例可能导致过拟合,这是一个尚未被探索的挑战。本文提出了MotionDreamer,一种局部掩码建模范式,旨在从具有任意拓扑和持续时间的给定动作中学习内部运动模式。通过使用一种新颖的分布正则化方法将给定的动作嵌入到量化token中,MotionDreamer为局部运动模式构建了一个鲁棒且信息丰富的码本。此外,在掩码Transformer中引入了滑动窗口局部注意力,从而能够生成自然且多样化的动画,这些动画与参考运动模式非常相似。通过全面的实验证明,MotionDreamer在保真度和多样性方面均优于通常基于GAN或Diffusion的现有方法。由于基于量化的方法的一致性和鲁棒性,MotionDreamer还可以有效地执行下游任务,例如时间运动编辑、人群动画和节拍对齐的舞蹈生成,所有这些都使用单个参考运动。

🔬 方法详解

问题定义:论文旨在解决从单个动作捕捉(MoCap)参考生成多样化动画的问题。现有方法,特别是基于GAN或Diffusion的方法,在数据集较小的情况下容易过拟合,难以保证生成动画的质量和多样性。此外,现有方法通常难以捕捉动作的局部模式和长期依赖关系。

核心思路:MotionDreamer的核心思路是利用局部掩码建模,从给定的单个动作中学习内部运动模式。通过将动作嵌入到量化的token中,并使用分布正则化方法,构建一个鲁棒且信息丰富的局部运动码本。然后,使用一个带有滑动窗口局部注意力的掩码Transformer,生成与参考动作相似但又具有多样性的动画。

技术框架:MotionDreamer的整体框架包括以下几个主要阶段:1) 动作量化:将输入的动作序列转换为离散的token序列,构建局部运动码本。2) 掩码Transformer:使用一个带有滑动窗口局部注意力的Transformer模型,对掩码的token进行预测,生成新的动作序列。3) 动作重建:将生成的token序列转换回动作序列。

关键创新:MotionDreamer的关键创新在于以下几个方面:1) 局部掩码建模:通过对局部运动模式进行建模,可以更好地捕捉动作的内部结构和依赖关系。2) 分布正则化:通过对量化token的分布进行正则化,可以提高码本的鲁棒性和信息量。3) 滑动窗口局部注意力:通过使用滑动窗口局部注意力,可以减少计算量,并更好地捕捉局部运动模式。

关键设计:在动作量化阶段,论文使用了一种基于向量量化的方法,将动作序列转换为离散的token序列。在掩码Transformer中,论文使用了一个标准的Transformer结构,并引入了滑动窗口局部注意力机制。损失函数包括重建损失和分布正则化损失。滑动窗口的大小是一个重要的参数,需要根据具体的动作数据进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotionDreamer在动作生成任务中取得了显著的成果,在保真度和多样性方面均优于现有的GAN和Diffusion方法。实验结果表明,MotionDreamer能够生成高质量、多样化的动画,并且能够有效地应用于动作编辑、人群动画和节拍对齐的舞蹈生成等下游任务。项目主页提供了详细的实验结果和代码。

🎯 应用场景

MotionDreamer具有广泛的应用前景,例如:动画制作、游戏开发、虚拟现实、机器人控制等。它可以用于生成各种类型的动画,例如:人物动画、动物动画、舞蹈动画等。此外,MotionDreamer还可以用于动作编辑、人群动画和节拍对齐的舞蹈生成等下游任务,具有很高的实际应用价值和商业潜力。

📄 摘要(原文)

Generative masked transformers have demonstrated remarkable success across various content generation tasks, primarily due to their ability to effectively model large-scale dataset distributions with high consistency. However, in the animation domain, large datasets are not always available. Applying generative masked modeling to generate diverse instances from a single MoCap reference may lead to overfitting, a challenge that remains unexplored. In this work, we present MotionDreamer, a localized masked modeling paradigm designed to learn internal motion patterns from a given motion with arbitrary topology and duration. By embedding the given motion into quantized tokens with a novel distribution regularization method, MotionDreamer constructs a robust and informative codebook for local motion patterns. Moreover, a sliding window local attention is introduced in our masked transformer, enabling the generation of natural yet diverse animations that closely resemble the reference motion patterns. As demonstrated through comprehensive experiments, MotionDreamer outperforms the state-of-the-art methods that are typically GAN or Diffusion-based in both faithfulness and diversity. Thanks to the consistency and robustness of the quantization-based approach, MotionDreamer can also effectively perform downstream tasks such as temporal motion editing, \textcolor{update}{crowd animation}, and beat-aligned dance generation, all using a single reference motion. Visit our project page: https://motiondreamer.github.io/