Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns

📄 arXiv: 2410.20389v1 📥 PDF

作者: Ronghui Li, Hongwen Zhang, Yachao Zhang, Yuxiang Zhang, Youliang Zhang, Jie Guo, Yan Zhang, Xiu Li, Yebin Liu

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-10-27

备注: Project page: https://li-ronghui.github.io/lodgepp


💡 一句话要点

Lodge++:提出高质量、超长舞蹈生成框架,具备生动编舞模式

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 舞蹈生成 长序列生成 扩散模型 编舞 动作捕捉 物理合理性 风格迁移

📋 核心要点

  1. 现有舞蹈生成方法在计算效率、复杂编舞模式学习和物理合理性方面存在挑战,难以生成高质量的超长舞蹈。
  2. Lodge++采用两阶段策略,首先生成粗粒度舞蹈基元,然后利用扩散模型生成高质量长序列舞蹈,并引入模块优化物理合理性。
  3. 实验结果表明,Lodge++能够快速生成适用于各种舞蹈类型的超长舞蹈,保证了全局编舞模式和局部运动质量。

📝 摘要(中文)

本文提出Lodge++,一个编舞框架,旨在根据音乐和期望的舞蹈类型生成高质量、超长且生动的舞蹈。为了应对计算效率、复杂生动的全局编舞模式学习以及局部舞蹈动作的物理质量等挑战,Lodge++采用了一种由粗到精的两阶段策略来生成舞蹈。第一阶段,设计了一个全局编舞网络,生成粗粒度的舞蹈基元,以捕捉复杂的全局编舞模式。第二阶段,在这些舞蹈基元的指导下,提出了一个基于基元的舞蹈扩散模型,以并行方式进一步生成高质量的长序列舞蹈,忠实地遵循复杂的编舞模式。此外,为了提高物理合理性,Lodge++采用了一个穿透引导模块来解决角色自穿透问题,一个足部优化模块来优化足部与地面的接触,以及一个多类型判别器来保持整个舞蹈的类型一致性。通过大量的实验验证,Lodge++能够快速生成适用于各种舞蹈类型的超长舞蹈,确保组织良好的全局编舞模式和高质量的局部运动。

🔬 方法详解

问题定义:现有舞蹈生成方法难以兼顾计算效率、全局编舞模式的复杂性和局部动作的物理真实性,尤其是在生成超长舞蹈序列时,容易出现动作不协调、穿模、与音乐不匹配等问题。现有方法难以捕捉舞蹈的全局结构,并且在生成长序列时计算成本高昂。

核心思路:Lodge++的核心思路是将舞蹈生成过程分解为粗粒度的全局编舞和细粒度的局部动作生成两个阶段。通过全局编舞网络学习舞蹈的整体结构和风格,然后利用扩散模型在全局指导下生成高质量的局部动作。这种由粗到精的策略可以有效提高生成效率,并保证舞蹈的整体连贯性和风格一致性。

技术框架:Lodge++包含两个主要阶段:全局编舞阶段和局部动作生成阶段。在全局编舞阶段,使用全局编舞网络生成粗粒度的舞蹈基元,这些基元代表了舞蹈的整体结构和风格。在局部动作生成阶段,基于舞蹈基元,使用基于基元的舞蹈扩散模型并行生成高质量的长序列舞蹈。此外,还包括穿透引导模块、足部优化模块和多类型判别器,用于提高舞蹈的物理合理性和风格一致性。

关键创新:Lodge++的关键创新在于其两阶段生成策略和基于基元的舞蹈扩散模型。两阶段策略将复杂的舞蹈生成任务分解为两个相对简单的子任务,降低了计算复杂度。基于基元的舞蹈扩散模型能够并行生成长序列舞蹈,显著提高了生成效率。此外,穿透引导模块和足部优化模块有效地解决了舞蹈生成中的物理合理性问题。

关键设计:全局编舞网络采用Transformer架构,用于学习舞蹈的全局结构和风格。基于基元的舞蹈扩散模型采用U-Net架构,并引入了舞蹈基元作为条件输入,指导局部动作的生成。穿透引导模块通过计算角色网格之间的距离来检测和纠正穿模现象。足部优化模块通过调整足部位置来保证足部与地面的接触。多类型判别器用于区分不同风格的舞蹈,并强制生成器生成风格一致的舞蹈。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Lodge++能够生成高质量、超长的舞蹈序列,在舞蹈质量和风格一致性方面优于现有方法。Lodge++能够生成各种舞蹈类型的舞蹈,包括街舞、芭蕾舞等。此外,Lodge++的生成速度也显著优于现有方法,能够快速生成超长舞蹈序列。

🎯 应用场景

Lodge++可应用于虚拟偶像、游戏、电影等领域,生成高质量、风格多样的舞蹈内容。该技术能够降低舞蹈内容创作的成本,提高创作效率,并为用户提供更加个性化的舞蹈体验。未来,该技术有望应用于舞蹈教学、康复训练等领域。

📄 摘要(原文)

We propose Lodge++, a choreography framework to generate high-quality, ultra-long, and vivid dances given the music and desired genre. To handle the challenges in computational efficiency, the learning of complex and vivid global choreography patterns, and the physical quality of local dance movements, Lodge++ adopts a two-stage strategy to produce dances from coarse to fine. In the first stage, a global choreography network is designed to generate coarse-grained dance primitives that capture complex global choreography patterns. In the second stage, guided by these dance primitives, a primitive-based dance diffusion model is proposed to further generate high-quality, long-sequence dances in parallel, faithfully adhering to the complex choreography patterns. Additionally, to improve the physical plausibility, Lodge++ employs a penetration guidance module to resolve character self-penetration, a foot refinement module to optimize foot-ground contact, and a multi-genre discriminator to maintain genre consistency throughout the dance. Lodge++ is validated by extensive experiments, which show that our method can rapidly generate ultra-long dances suitable for various dance genres, ensuring well-organized global choreography patterns and high-quality local motion.