Parameter-Efficient Transfer Learning for Music Foundation Models

📄 arXiv: 2411.19371v1 📥 PDF

作者: Yiwei Ding, Alexander Lerch

分类: cs.SD, cs.LG, eess.AS

发布日期: 2024-11-28

备注: 6+2 pages

🔗 代码/项目: GITHUB


💡 一句话要点

针对音乐基础模型,提出参数高效的迁移学习方法,提升下游任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音乐基础模型 参数高效迁移学习 音乐自动标注 音调检测 速度估计 迁移学习 深度学习

📋 核心要点

  1. 现有音乐基础模型的迁移学习方法,如探查和微调,存在性能瓶颈或计算成本过高的问题。
  2. 论文提出参数高效迁移学习(PETL)方法,旨在以较小的计算代价,实现与微调相当甚至更好的性能。
  3. 实验结果表明,PETL在音乐自动标注任务上优于探查和微调,并在音调检测和速度估计任务上与微调相当。

📝 摘要(中文)

近年来,越来越多的音乐基础模型被发布,它们有望对音乐信息进行通用且基本与任务无关的编码。将音乐基础模型适配到下游任务的常用方法包括探查(probing)和微调(fine-tuning)。然而,这些常见的迁移学习方法面临挑战。探查可能导致次优性能,因为预训练的权重被冻结,而微调的计算成本很高且容易过拟合。本文研究了参数高效迁移学习(PETL)在音乐基础模型中的应用,它融合了探查和微调的优点。我们介绍了三种类型的PETL方法:基于适配器的方法、基于提示的方法和基于重参数化的方法。这些方法仅训练少量参数,因此不需要大量的计算资源。结果表明,PETL方法在音乐自动标注方面优于探查和微调。在音调检测和速度估计方面,它们实现了与微调相似的结果,但训练成本显著降低。然而,通过从头开始训练一个小模型所获得的相似结果,也对当前这一代基础模型在音调和速度任务上的有效性提出了质疑。

🔬 方法详解

问题定义:论文旨在解决将大型音乐基础模型高效迁移到下游任务的问题。现有方法,如完全微调,计算成本高昂且容易过拟合。而探查方法虽然计算量小,但由于冻结了预训练模型的权重,可能无法充分利用预训练模型的知识,导致性能受限。

核心思路:论文的核心思路是采用参数高效迁移学习(PETL)方法,通过仅训练少量参数来调整预训练模型,从而在计算效率和性能之间取得平衡。PETL方法旨在保留预训练模型的通用知识,同时针对特定任务进行优化。

技术框架:论文研究了三种PETL方法:1) 基于适配器的方法,在预训练模型的层之间插入小型神经网络模块(适配器),只训练这些适配器的参数。2) 基于提示的方法,通过在输入中添加可学习的提示(prompt)来引导模型,只训练提示的参数。3) 基于重参数化的方法,通过对预训练模型的权重进行重参数化,只训练重参数化后的参数。

关键创新:论文的关键创新在于将参数高效迁移学习方法应用于音乐基础模型,并系统地比较了不同PETL方法在音乐任务上的性能。通过实验证明,PETL方法可以在音乐自动标注任务上超越传统的微调和探查方法,并在其他任务上达到与微调相当的性能,同时显著降低计算成本。

关键设计:具体的技术细节取决于所使用的PETL方法。例如,基于适配器的方法需要设计适配器的网络结构和大小。基于提示的方法需要选择合适的提示类型和长度。基于重参数化的方法需要选择合适的重参数化策略。论文中可能包含了这些方法的具体参数设置和实现细节,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PETL方法在音乐自动标注任务上优于探查和微调。在音调检测和速度估计任务上,PETL方法实现了与微调相似的结果,但训练成本显著降低。然而,论文也指出,在音调检测和速度估计任务上,从头开始训练的小模型也能取得相似的结果,这表明当前基础模型在这些任务上的有效性可能有限。

🎯 应用场景

该研究成果可应用于各种音乐信息检索任务,例如音乐自动标注、音调检测、速度估计等。通过参数高效的迁移学习,可以降低模型部署和训练的成本,使得在资源受限的环境下也能有效利用大型音乐基础模型,加速音乐人工智能应用的发展。

📄 摘要(原文)

More music foundation models are recently being released, promising a general, mostly task independent encoding of musical information. Common ways of adapting music foundation models to downstream tasks are probing and fine-tuning. These common transfer learning approaches, however, face challenges. Probing might lead to suboptimal performance because the pre-trained weights are frozen, while fine-tuning is computationally expensive and is prone to overfitting. Our work investigates the use of parameter-efficient transfer learning (PETL) for music foundation models which integrates the advantage of probing and fine-tuning. We introduce three types of PETL methods: adapter-based methods, prompt-based methods, and reparameterization-based methods. These methods train only a small number of parameters, and therefore do not require significant computational resources. Results show that PETL methods outperform both probing and fine-tuning on music auto-tagging. On key detection and tempo estimation, they achieve similar results as fine-tuning with significantly less training cost. However, the usefulness of the current generation of foundation model on key and tempo tasks is questioned by the similar results achieved by training a small model from scratch. Code available at https://github.com/suncerock/peft-music/