DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation
作者: Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Toshimitsu Uesaka, Keisuke Toyama, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Wei-Hsiang Liao, Simon Dixon, Yuki Mitsufuji
分类: cs.SD, cs.AI, cs.LG, eess.AS
发布日期: 2024-08-20
💡 一句话要点
DisMix:解耦乐器混合音源,实现音高和音色的源级别操控
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 音乐源分离 音高解耦 音色解耦 生成模型 扩散模型 多乐器混合 音乐编辑
📋 核心要点
- 现有音高和音色解耦方法主要针对单乐器,无法处理多乐器混合音源的复杂情况。
- DisMix通过解耦音高和音色表示,将它们作为构建块,生成具有新颖音高和音色组合的混合音源。
- 实验表明,DisMix在孤立和弦和四声部合唱数据集上表现良好,验证了解耦的有效性和混合音源转换能力。
📝 摘要(中文)
现有音高和音色解耦工作主要集中在单乐器音乐音频上,忽略了多乐器混合的情况。为了填补这一空白,我们提出了DisMix,一个生成式框架,其中音高和音色表示作为模块化构建块,用于构建音源的旋律和乐器,它们的集合形成观察到的混合音源的底层乐器级别潜在表示。通过操纵这些表示,我们的模型可以采样具有构成乐器音高和音色新颖组合的混合音源。我们可以联合学习解耦的音高-音色表示和一个潜在扩散Transformer,该Transformer重建以源级别表示集合为条件的混合音源。我们使用孤立和弦的简单数据集和J.S.巴赫风格的真实四声部合唱来评估模型,确定了解耦成功的关键组成部分,并展示了基于源级别属性操纵的混合音源转换的应用。
🔬 方法详解
问题定义:论文旨在解决多乐器混合音乐音频中音高和音色解耦的问题。现有方法主要集中于单乐器音频,无法有效分离和控制混合音源中各个乐器的音高和音色,导致无法进行源级别的属性操控。
核心思路:DisMix的核心思路是将混合音源分解为多个源级别的音高和音色表示,并将这些表示作为模块化构建块,通过操纵这些表示来生成具有新颖音高和音色组合的混合音源。这种解耦的方式使得可以独立地控制每个乐器的音高和音色,从而实现源级别的属性操控。
技术框架:DisMix的整体架构包含以下主要模块:1) 音高和音色表示提取模块,用于从混合音源中提取每个乐器的音高和音色表示;2) 潜在扩散Transformer,用于重建以源级别表示集合为条件的混合音源。该Transformer以解耦的音高-音色表示作为输入,生成对应的音频波形。
关键创新:DisMix的关键创新在于它提出了一种针对多乐器混合音源的解耦框架,能够有效地分离和控制每个乐器的音高和音色。此外,DisMix还采用了潜在扩散Transformer,能够生成高质量的混合音源。
关键设计:DisMix的关键设计包括:1) 使用合适的损失函数来训练音高和音色表示提取模块,以确保表示的解耦性;2) 设计合适的Transformer结构,以有效地重建混合音源;3) 精心选择训练数据集,以提高模型的泛化能力。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DisMix在孤立和弦和四声部合唱数据集上都取得了良好的效果。通过操纵音高和音色表示,DisMix能够生成具有新颖音高和音色组合的混合音源。实验还验证了解耦成功的关键组成部分,并展示了基于源级别属性操纵的混合音源转换的应用。
🎯 应用场景
DisMix具有广泛的应用前景,例如音乐创作、音乐编辑、音乐教育等。它可以用于生成具有特定音高和音色组合的音乐,也可以用于编辑现有音乐作品中的乐器音色。此外,DisMix还可以用于音乐教育,帮助学生更好地理解音高和音色的概念。
📄 摘要(原文)
Existing work on pitch and timbre disentanglement has been mostly focused on single-instrument music audio, excluding the cases where multiple instruments are presented. To fill the gap, we propose DisMix, a generative framework in which the pitch and timbre representations act as modular building blocks for constructing the melody and instrument of a source, and the collection of which forms a set of per-instrument latent representations underlying the observed mixture. By manipulating the representations, our model samples mixtures with novel combinations of pitch and timbre of the constituent instruments. We can jointly learn the disentangled pitch-timbre representations and a latent diffusion transformer that reconstructs the mixture conditioned on the set of source-level representations. We evaluate the model using both a simple dataset of isolated chords and a realistic four-part chorales in the style of J.S. Bach, identify the key components for the success of disentanglement, and demonstrate the application of mixture transformation based on source-level attribute manipulation.