Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation

📄 arXiv: 2505.03314v1 📥 PDF

作者: Jincheng Zhang, György Fazekas, Charalampos Saitis

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于Transformer-Mamba块和可学习小波变换的扩散模型,用于可控的符号音乐生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 符号音乐生成 扩散模型 Transformer-Mamba 可学习小波变换 钢琴卷帘 无分类器引导 音乐质量 可控性

📋 核心要点

  1. 符号音乐的离散特性使得直接应用传统扩散模型面临挑战,需要有效的表示方法。
  2. 论文提出Transformer-Mamba块和可学习小波变换,构建新型扩散模型,提升音乐生成质量。
  3. 实验结果表明,该方法在音乐质量和可控性上优于现有基线模型,具有显著优势。

📝 摘要(中文)

扩散模型在图像合成领域的流行激发了人们对其在其他领域生成任务中潜力的关注。然而,由于符号音乐通常表示为离散事件序列,而标准扩散模型不适合离散数据,因此它们在符号音乐生成中的应用仍未得到充分探索。本文将符号音乐表示为类似图像的钢琴卷帘,从而方便了扩散模型在符号音乐生成中的应用。此外,本研究引入了一种新的扩散模型,该模型结合了我们提出的Transformer-Mamba块和可学习小波变换。利用无分类器引导来生成具有目标和弦的符号音乐。我们的评估表明,我们的方法在音乐质量和可控性方面取得了令人信服的结果,优于钢琴卷帘生成中的强大基线。

🔬 方法详解

问题定义:符号音乐生成任务面临的挑战在于,符号音乐通常以离散事件序列的形式存在,而传统的扩散模型更擅长处理连续数据。现有的符号音乐生成方法在音乐质量和可控性方面存在局限性,难以生成高质量且符合用户指定要求的音乐作品。

核心思路:论文的核心思路是将符号音乐表示为类似图像的钢琴卷帘,从而将扩散模型应用于符号音乐生成。此外,通过引入Transformer-Mamba块和可学习小波变换,增强模型对音乐特征的提取和表达能力,从而提高生成音乐的质量和可控性。

技术框架:该模型基于扩散模型框架,主要包括以下几个模块:1) 钢琴卷帘表示模块:将符号音乐转换为钢琴卷帘图像;2) Transformer-Mamba块:用于提取钢琴卷帘图像的特征;3) 可学习小波变换:用于增强模型对音乐时频特征的提取能力;4) 扩散过程:逐步向钢琴卷帘图像添加噪声;5) 逆扩散过程:从噪声中逐步恢复出原始钢琴卷帘图像。

关键创新:论文的关键创新在于:1) 将Transformer-Mamba块引入扩散模型,增强了模型对序列数据的建模能力;2) 提出了可学习小波变换,能够自适应地学习音乐的时频特征,从而提高生成音乐的质量;3) 利用无分类器引导,实现了对生成音乐的和弦进行控制。

关键设计:Transformer-Mamba块的具体结构未知,但可以推测其结合了Transformer的全局建模能力和Mamba的线性复杂度优势。可学习小波变换的具体实现方式未知,但可以推测其通过学习小波基函数,从而更好地适应音乐数据的特点。无分类器引导的具体实现方式未知,但可以推测其通过在训练过程中随机丢弃类别标签,从而使模型能够生成具有指定和弦的音乐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在音乐质量和可控性方面均优于现有基线模型。具体而言,该方法生成的音乐在客观指标和主观评价上均取得了显著提升。此外,该方法能够有效地控制生成音乐的和弦,满足用户对音乐风格的特定需求。论文开源了代码,方便其他研究者进行复现和改进。

🎯 应用场景

该研究成果可应用于自动作曲、音乐教育、游戏音乐生成等领域。通过该模型,用户可以方便地生成具有特定风格和和弦的音乐作品,降低音乐创作的门槛,并为音乐创作提供新的可能性。未来,该技术有望在音乐产业中得到广泛应用,例如辅助音乐制作人进行音乐创作,为游戏开发者提供高质量的背景音乐等。

📄 摘要(原文)

The recent surge in the popularity of diffusion models for image synthesis has attracted new attention to their potential for generation tasks in other domains. However, their applications to symbolic music generation remain largely under-explored because symbolic music is typically represented as sequences of discrete events and standard diffusion models are not well-suited for discrete data. We represent symbolic music as image-like pianorolls, facilitating the use of diffusion models for the generation of symbolic music. Moreover, this study introduces a novel diffusion model that incorporates our proposed Transformer-Mamba block and learnable wavelet transform. Classifier-free guidance is utilised to generate symbolic music with target chords. Our evaluation shows that our method achieves compelling results in terms of music quality and controllability, outperforming the strong baseline in pianoroll generation. Our code is available at https://github.com/jinchengzhanggg/proffusion.