MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

📄 arXiv: 2512.18181v2 📥 PDF

作者: Kaixing Yang, Jiashu Zhu, Xulong Tang, Ziqiao Peng, Xiangyue Zhang, Puwei Wang, Jiahong Wu, Xiangxiang Chu, Hongyan Liu, Jun He

分类: cs.CV

发布日期: 2025-12-20 (更新: 2025-12-29)

备注: The manuscript has been withdrawn because issues were identified in the experimental data, and the results need to be re-evaluated and updated before resubmission


💡 一句话要点

MACE-Dance:基于级联专家混合模型的音乐驱动舞蹈视频生成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 音乐驱动舞蹈生成 视频生成 扩散模型 专家混合模型 3D运动生成

📋 核心要点

  1. 现有音乐驱动舞蹈视频生成方法难以兼顾高质量视觉效果和逼真人体运动。
  2. MACE-Dance采用级联专家混合模型,分别处理运动生成和外观合成,实现高质量舞蹈视频生成。
  3. MACE-Dance在3D舞蹈生成和姿势驱动图像动画上均取得SOTA性能,并在自建数据集上验证了有效性。

📝 摘要(中文)

随着在线舞蹈视频平台的兴起和人工智能生成内容(AIGC)的快速发展,音乐驱动的舞蹈生成已成为一个引人注目的研究方向。尽管在音乐驱动的3D舞蹈生成、姿势驱动的图像动画和音频驱动的说话人合成等相关领域取得了显著进展,但现有方法无法直接应用于此任务。此外,该领域有限的研究仍然难以同时实现高质量的视觉外观和逼真的人体运动。因此,我们提出了MACE-Dance,一个具有级联专家混合模型(MoE)的音乐驱动舞蹈视频生成框架。运动专家执行音乐到3D运动的生成,同时强制执行运动学合理性和艺术表现力,而外观专家执行运动和参考条件下的视频合成,保持视觉身份与时空连贯性。具体而言,运动专家采用具有BiMamba-Transformer混合架构和无引导训练(GFT)策略的扩散模型,在3D舞蹈生成中实现了最先进(SOTA)的性能。外观专家采用解耦的运动学-美学微调策略,在姿势驱动的图像动画中实现了最先进(SOTA)的性能。为了更好地评估此任务,我们整理了一个大规模且多样化的数据集,并设计了一个运动-外观评估协议。基于此协议,MACE-Dance也实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决音乐驱动的舞蹈视频生成问题。现有方法要么无法直接迁移到该任务,要么难以同时保证生成视频的视觉质量和人体运动的真实性,缺乏一个能够生成高质量、逼真舞蹈视频的有效框架。

核心思路:论文的核心思路是将舞蹈视频生成任务分解为两个阶段:首先,利用音乐生成逼真且富有表现力的3D人体运动;然后,基于生成的3D运动和参考图像合成具有时空一致性的高质量舞蹈视频。通过级联的专家混合模型(MoE)分别处理运动和外观,从而解耦了运动控制和视觉风格。

技术框架:MACE-Dance框架包含两个主要模块:运动专家(Motion Expert)和外观专家(Appearance Expert)。运动专家负责将音乐转换为3D人体运动,采用扩散模型和BiMamba-Transformer混合架构,并使用无引导训练(GFT)策略。外观专家负责基于运动和参考图像合成舞蹈视频,采用解耦的运动学-美学微调策略。两个专家模型级联,共同完成音乐驱动的舞蹈视频生成。

关键创新:论文的关键创新在于:1) 提出了一个级联的专家混合模型,将舞蹈视频生成分解为运动生成和外观合成两个阶段,有效解耦了运动控制和视觉风格。2) 运动专家采用了BiMamba-Transformer混合架构和无引导训练策略,显著提升了3D舞蹈生成的质量。3) 外观专家采用了解耦的运动学-美学微调策略,在姿势驱动的图像动画中取得了SOTA性能。

关键设计:运动专家使用扩散模型,并结合BiMamba和Transformer的优势,捕捉音乐和运动之间的长程依赖关系。无引导训练策略避免了条件生成模型中常见的过度拟合问题。外观专家采用解耦的微调策略,分别优化运动学和美学特征,从而更好地控制生成视频的质量和风格。论文还构建了一个大规模、多样化的舞蹈视频数据集,并设计了运动-外观评估协议,为该领域的研究提供了基准。

🖼️ 关键图片

img_0

📊 实验亮点

MACE-Dance在3D舞蹈生成和姿势驱动图像动画任务上均取得了SOTA性能。具体而言,运动专家在3D舞蹈生成任务上超越了现有方法,外观专家在姿势驱动图像动画任务上也取得了显著提升。此外,在自建的大规模舞蹈视频数据集上,MACE-Dance也取得了最佳的整体性能,验证了其在音乐驱动舞蹈视频生成任务上的有效性。

🎯 应用场景

MACE-Dance具有广泛的应用前景,包括:在线舞蹈视频生成、虚拟偶像表演、游戏角色动画、以及个性化舞蹈教学等。该技术可以根据用户提供的音乐自动生成舞蹈视频,降低舞蹈内容创作的门槛,并为用户提供更加个性化和有趣的互动体验。未来,该技术有望应用于更广泛的AIGC领域,例如虚拟现实和增强现实。

📄 摘要(原文)

With the rise of online dance-video platforms and rapid advances in AI-generated content (AIGC), music-driven dance generation has emerged as a compelling research direction. Despite substantial progress in related domains such as music-driven 3D dance generation, pose-driven image animation, and audio-driven talking-head synthesis, existing methods cannot be directly adapted to this task. Moreover, the limited studies in this area still struggle to jointly achieve high-quality visual appearance and realistic human motion. Accordingly, we present MACE-Dance, a music-driven dance video generation framework with cascaded Mixture-of-Experts (MoE). The Motion Expert performs music-to-3D motion generation while enforcing kinematic plausibility and artistic expressiveness, whereas the Appearance Expert carries out motion- and reference-conditioned video synthesis, preserving visual identity with spatiotemporal coherence. Specifically, the Motion Expert adopts a diffusion model with a BiMamba-Transformer hybrid architecture and a Guidance-Free Training (GFT) strategy, achieving state-of-the-art (SOTA) performance in 3D dance generation. The Appearance Expert employs a decoupled kinematic-aesthetic fine-tuning strategy, achieving state-of-the-art (SOTA) performance in pose-driven image animation. To better benchmark this task, we curate a large-scale and diverse dataset and design a motion-appearance evaluation protocol. Based on this protocol, MACE-Dance also achieves state-of-the-art performance. Project page: https://macedance.github.io/