MusER: Musical Element-Based Regularization for Generating Symbolic Music with Emotion
作者: Shulei Ji, Xinyu Yang
分类: cs.SD, cs.AI, cs.MM, eess.AS
发布日期: 2023-12-16 (更新: 2024-01-02)
备注: Accepted by AAAI 2024
💡 一句话要点
MusER:基于音乐元素的正则化方法用于生成具有情感的符号音乐
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)
关键词: 情感音乐生成 音乐元素解耦 VQ-VAE 正则化 潜在空间 音乐编辑 符号音乐
📋 核心要点
- 现有情感音乐生成方法很少探索不同音乐元素对情感的贡献,难以实现对情感的细粒度元素级控制。
- MusER通过音乐元素正则化潜在空间,解耦不同元素,研究其情感作用,并操纵元素以改变音乐情感。
- 实验表明,MusER生成解耦且可解释的潜在空间,并在客观和主观评估中优于现有情感音乐生成模型。
📝 摘要(中文)
本文提出了一种新颖的方法,即在潜在空间中使用基于音乐元素的正则化来解耦不同的元素,研究它们在区分情感中的作用,并进一步操纵这些元素来改变音乐的情感。具体来说,我们提出了一个名为MusER的基于VQ-VAE的模型。MusER结合了正则化损失,以加强音乐元素序列与潜在变量序列的特定维度之间的对应关系,为解耦离散序列提供了一种新的解决方案。利用解耦的潜在向量,设计了一种包含多个解码器的两级解码策略,这些解码器关注具有不同语义的潜在向量,以更好地预测元素。通过可视化潜在空间,我们得出结论,MusER产生了一个解耦且可解释的潜在空间,并深入了解了不同元素对情感维度(即唤醒度和效价)的贡献。实验结果表明,MusER在客观和主观评估中均优于最先进的情感音乐生成模型。此外,我们通过元素转移来重新编排音乐,并尝试通过转移情感可区分的元素来改变音乐的情感。
🔬 方法详解
问题定义:现有基于深度学习的情感音乐生成方法,缺乏对音乐元素(如音高、时长等)与情感之间关系的深入建模,难以控制特定音乐元素来调整音乐的情感表达。这限制了对情感音乐的细粒度控制和编辑能力。
核心思路:通过在潜在空间中引入基于音乐元素的正则化,将不同的音乐元素解耦到不同的潜在维度上。这样,每个潜在维度就对应于一个特定的音乐元素,从而可以单独控制这些元素来改变音乐的情感。
技术框架:MusER模型基于VQ-VAE架构。首先,编码器将音乐序列编码到离散的潜在空间中。然后,通过一个正则化损失,强制潜在变量的特定维度与特定的音乐元素序列相对应。最后,使用一个两级解码器,根据解耦的潜在向量生成音乐序列。该解码器包含多个子解码器,每个子解码器关注具有不同语义的潜在向量。
关键创新:MusER的关键创新在于提出了基于音乐元素的正则化方法,实现了离散序列的解耦。这种方法能够将不同的音乐元素映射到潜在空间的不同维度上,从而可以单独控制这些元素。此外,两级解码器的设计也提高了音乐生成的质量。
关键设计:MusER使用VQ-VAE作为基础架构,并添加了一个正则化损失函数。该损失函数的目标是最小化潜在变量的特定维度与对应音乐元素序列之间的距离。具体来说,对于每个音乐元素,模型学习一个线性变换,将潜在变量映射到该元素的表示。正则化损失鼓励这些线性变换是稀疏的,从而使得每个潜在维度只与少数几个音乐元素相关联。两级解码器包含多个子解码器,每个子解码器关注不同的潜在维度,并预测对应的音乐元素。
📊 实验亮点
MusER在客观和主观评估中均优于现有情感音乐生成模型。通过可视化潜在空间,发现MusER能够有效地解耦不同的音乐元素,并揭示它们对情感维度(唤醒度和效价)的贡献。此外,通过元素转移实验,验证了MusER能够通过操纵特定音乐元素来改变音乐的情感。
🎯 应用场景
MusER可应用于情感音乐生成、音乐编辑和音乐教育等领域。它可以帮助音乐家和作曲家创作具有特定情感的音乐,也可以用于自动生成个性化的音乐推荐。此外,MusER还可以作为一种教育工具,帮助学生理解音乐元素与情感之间的关系。
📄 摘要(原文)
Generating music with emotion is an important task in automatic music generation, in which emotion is evoked through a variety of musical elements (such as pitch and duration) that change over time and collaborate with each other. However, prior research on deep learning-based emotional music generation has rarely explored the contribution of different musical elements to emotions, let alone the deliberate manipulation of these elements to alter the emotion of music, which is not conducive to fine-grained element-level control over emotions. To address this gap, we present a novel approach employing musical element-based regularization in the latent space to disentangle distinct elements, investigate their roles in distinguishing emotions, and further manipulate elements to alter musical emotions. Specifically, we propose a novel VQ-VAE-based model named MusER. MusER incorporates a regularization loss to enforce the correspondence between the musical element sequences and the specific dimensions of latent variable sequences, providing a new solution for disentangling discrete sequences. Taking advantage of the disentangled latent vectors, a two-level decoding strategy that includes multiple decoders attending to latent vectors with different semantics is devised to better predict the elements. By visualizing latent space, we conclude that MusER yields a disentangled and interpretable latent space and gain insights into the contribution of distinct elements to the emotional dimensions (i.e., arousal and valence). Experimental results demonstrate that MusER outperforms the state-of-the-art models for generating emotional music in both objective and subjective evaluation. Besides, we rearrange music through element transfer and attempt to alter the emotion of music by transferring emotion-distinguishable elements.