Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model
作者: Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo
分类: cs.CV, cs.AI, cs.GR, cs.SD
发布日期: 2026-03-09
备注: Accepted by WACV 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于Mamba和扩散模型的MambaDance,解决舞蹈生成中时序建模和节拍同步问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 舞蹈生成 Mamba模型 扩散模型 时序建模 音乐同步
📋 核心要点
- 现有舞蹈生成方法难以充分捕捉舞蹈内在的时序性、节奏感和音乐同步特性。
- MambaDance利用Mamba模型处理长时序依赖,并结合高斯节拍表示显式引导舞蹈生成。
- 实验表明,MambaDance在生成舞蹈动作的合理性和反映音乐节拍方面优于现有方法。
📝 摘要(中文)
本文提出了一种新的舞蹈生成方法MambaDance,该方法利用基于Mamba的扩散模型。Mamba擅长处理长序列和自回归序列,被集成到两阶段扩散架构中,替代了传统的Transformer。此外,考虑到音乐节拍在舞蹈编排中的关键作用,本文提出了一种基于高斯的节拍表示,以显式地指导舞蹈序列的解码。在AIST++和FineDance数据集上的实验结果表明,与现有方法相比,本文提出的方法能够有效地生成合理的舞蹈动作,并始终如一地反映舞蹈的基本特征,无论舞蹈长短。
🔬 方法详解
问题定义:舞蹈生成旨在根据音乐生成对应的舞蹈动作。现有方法,特别是基于Transformer的方法,在处理长时序依赖和捕捉舞蹈的节奏感方面存在局限性,难以生成与音乐节拍精确同步的舞蹈动作。
核心思路:MambaDance的核心思路是利用Mamba模型替代Transformer,以更好地处理舞蹈动作序列中的长时序依赖关系。同时,引入基于高斯的节拍表示,显式地将音乐节拍信息融入到舞蹈生成过程中,从而提高舞蹈动作与音乐的同步性。
技术框架:MambaDance采用两阶段扩散模型架构。第一阶段,使用Mamba模型对舞蹈动作序列进行编码,并将其映射到潜在空间。第二阶段,使用另一个Mamba模型,结合音乐节拍信息,从潜在空间解码出舞蹈动作序列。高斯节拍表示作为额外的输入,指导解码过程。
关键创新:MambaDance的关键创新在于:1) 使用Mamba模型替代Transformer,更有效地处理长时序舞蹈动作序列;2) 提出基于高斯的节拍表示,显式地将音乐节拍信息融入到舞蹈生成过程中。这与现有方法隐式地学习音乐与舞蹈之间的关系不同,MambaDance通过显式建模节拍信息,提高了舞蹈动作与音乐的同步性。
关键设计:高斯节拍表示:使用高斯分布对每个节拍进行建模,高斯分布的均值对应于节拍的时间位置,方差控制节拍的影响范围。Mamba模型:采用选择性状态空间模型(Selective State Space Model, S6)架构,通过选择性机制关注重要的时序信息。损失函数:采用标准的扩散模型损失函数,包括数据重构损失和噪声预测损失。
🖼️ 关键图片
📊 实验亮点
MambaDance在AIST++和FineDance数据集上进行了评估,实验结果表明,MambaDance在生成舞蹈动作的合理性和反映音乐节拍方面优于现有方法。具体来说,MambaDance在舞蹈动作的流畅性和音乐同步性方面取得了显著提升,尤其是在长舞蹈序列的生成方面表现出色。定性结果也表明,MambaDance能够生成更加自然和富有表现力的舞蹈动作。
🎯 应用场景
MambaDance具有广泛的应用前景,包括音乐可视化、虚拟现实、游戏开发、内容创作等领域。它可以用于生成各种风格的舞蹈动作,为用户提供更加丰富和个性化的体验。此外,MambaDance还可以用于舞蹈教学和编舞辅助,帮助用户学习舞蹈和创作新的舞蹈作品。
📄 摘要(原文)
Dance is a form of human motion characterized by emotional expression and communication, playing a role in various fields such as music, virtual reality, and content creation. Existing methods for dance generation often fail to adequately capture the inherently sequential, rhythmical, and music-synchronized characteristics of dance. In this paper, we propose \emph{MambaDance}, a new dance generation approach that leverages a Mamba-based diffusion model. Mamba, well-suited to handling long and autoregressive sequences, is integrated into our two-stage diffusion architecture, substituting off-the-shelf Transformer. Additionally, considering the critical role of musical beats in dance choreography, we propose a Gaussian-based beat representation to explicitly guide the decoding of dance sequences. Experiments on AIST++ and FineDance datasets for each sequence length show that our proposed method effectively generates plausible dance movements while reflecting essential characteristics, consistently from short to long dances, compared to the previous methods. Additional qualitative results and demo videos are available at \small{https://vision3d-lab.github.io/mambadance}.