How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects

📄 arXiv: 2503.04257v2 📥 PDF

作者: Wonkwang Lee, Jongwon Jeong, Taehong Moon, Hyeon-Jong Kim, Jaehyeon Kim, Gunhee Kim, Byeong-Uk Lee

分类: cs.CV, cs.AI

发布日期: 2025-03-06 (更新: 2025-06-30)

备注: Accepted to ICML 2025


💡 一句话要点

提出一种基于文本描述的通用骨骼动画生成方法,解决异构骨骼模板的运动合成问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 文本到运动合成 运动生成 扩散模型 骨骼动画 数据增强 异构骨骼 动物运动 3D内容创作

📋 核心要点

  1. 现有运动合成方法缺乏包含广泛、高质量运动和注释的综合数据集,限制了其在多样化对象上的应用。
  2. 论文提出一种骨骼增强技术,生成多样化的运动数据,并改进运动扩散模型,使其适应任意骨骼模板。
  3. 实验结果表明,该方法能够从文本描述中生成高保真运动,适用于各种对象,包括未见过的对象。

📝 摘要(中文)

本文针对3D内容创作中,多类别物体的运动合成问题,该问题因缺乏高质量、大规模的运动数据集以及处理异构骨骼模板方法的缺失而未被充分探索。为此,我们做出了以下贡献:首先,我们通过添加详细的文本描述来扩充Truebones Zoo数据集(一个包含70多个物种的高质量动物运动数据集),使其适用于基于文本的运动合成。其次,我们引入了骨骼增强技术,该技术在保持一致动力学的同时生成多样化的运动数据,使模型能够适应各种骨骼配置。最后,我们重新设计了现有的运动扩散模型,使其能够动态适应任意骨骼模板,从而实现对具有不同结构的各种物体的运动合成。实验表明,我们的方法学会了从文本描述中生成各种甚至未见过的物体的高保真运动,为跨不同物体类别和骨骼模板的运动合成奠定了坚实的基础。

🔬 方法详解

问题定义:现有的运动合成方法在处理具有不同骨骼结构的物体时面临挑战。主要痛点在于缺乏足够多的、带有文本描述的、涵盖各种骨骼结构的运动数据集,以及缺乏能够处理异构骨骼模板的运动生成模型。这限制了运动合成技术在更广泛的对象类别上的应用。

核心思路:论文的核心思路是通过数据增强和模型改进来解决上述问题。首先,通过对现有高质量运动数据集进行文本描述标注,并采用骨骼增强技术来生成更多样化的运动数据。其次,通过改进运动扩散模型,使其能够动态适应不同的骨骼模板,从而实现对各种物体的运动合成。

技术框架:该方法的技术框架主要包含三个阶段:1) 数据集增强:对Truebones Zoo数据集进行文本描述标注,并使用骨骼增强技术生成更多样化的运动数据。2) 模型改进:重新设计现有的运动扩散模型,使其能够动态适应任意骨骼模板。3) 运动合成:使用改进后的模型,根据文本描述生成对应物体的运动。

关键创新:该方法的关键创新在于:1) 提出了骨骼增强技术,能够在保持运动动力学一致性的前提下,生成多样化的运动数据,从而缓解了数据不足的问题。2) 改进了运动扩散模型,使其能够动态适应不同的骨骼模板,从而实现了对各种物体的运动合成。

关键设计:关于骨骼增强技术,具体实现细节未知。关于运动扩散模型,论文重新设计了模型结构,使其能够接收骨骼模板作为输入,并动态调整模型参数以适应不同的骨骼结构。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够从文本描述中生成各种物体的高保真运动,包括未见过的物体。通过对Truebones Zoo数据集进行增强和模型改进,该方法在运动合成质量和多样性方面取得了显著提升,为跨不同物体类别和骨骼模板的运动合成奠定了坚实的基础。具体性能数据和对比基线在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于3D内容创作、游戏开发、动画制作、虚拟现实和增强现实等领域。通过文本描述即可生成各种物体的自然运动,极大地降低了3D内容创作的门槛,提高了创作效率。未来,该技术有望应用于机器人控制、生物力学分析等领域。

📄 摘要(原文)

Motion synthesis for diverse object categories holds great potential for 3D content creation but remains underexplored due to two key challenges: (1) the lack of comprehensive motion datasets that include a wide range of high-quality motions and annotations, and (2) the absence of methods capable of handling heterogeneous skeletal templates from diverse objects. To address these challenges, we contribute the following: First, we augment the Truebones Zoo dataset, a high-quality animal motion dataset covering over 70 species, by annotating it with detailed text descriptions, making it suitable for text-based motion synthesis. Second, we introduce rig augmentation techniques that generate diverse motion data while preserving consistent dynamics, enabling models to adapt to various skeletal configurations. Finally, we redesign existing motion diffusion models to dynamically adapt to arbitrary skeletal templates, enabling motion synthesis for a diverse range of objects with varying structures. Experiments show that our method learns to generate high-fidelity motions from textual descriptions for diverse and even unseen objects, setting a strong foundation for motion synthesis across diverse object categories and skeletal templates. Qualitative results are available at: $\href{https://t2m4lvo.github.io}{https://t2m4lvo.github.io}$.