Parameter-Efficient Transfer Learning for Music Foundation Models

作者: Yiwei Ding, Alexander Lerch

分类: cs.SD, cs.LG, eess.AS

发布日期: 2024-11-28

备注: 6+2 pages

🔗 代码/项目: GITHUB

💡 一句话要点

针对音乐基础模型，提出参数高效的迁移学习方法，提升下游任务性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音乐基础模型 参数高效迁移学习 音乐自动标注 音调检测 速度估计 迁移学习 深度学习

📋 核心要点

现有音乐基础模型的迁移学习方法，如探查和微调，存在性能瓶颈或计算成本过高的问题。
论文提出参数高效迁移学习（PETL）方法，旨在以较小的计算代价，实现与微调相当甚至更好的性能。
实验结果表明，PETL在音乐自动标注任务上优于探查和微调，并在音调检测和速度估计任务上与微调相当。

📝 摘要（中文）

近年来，越来越多的音乐基础模型被发布，它们有望对音乐信息进行通用且基本与任务无关的编码。将音乐基础模型适配到下游任务的常用方法包括探查（probing）和微调（fine-tuning）。然而，这些常见的迁移学习方法面临挑战。探查可能导致次优性能，因为预训练的权重被冻结，而微调的计算成本很高且容易过拟合。本文研究了参数高效迁移学习（PETL）在音乐基础模型中的应用，它融合了探查和微调的优点。我们介绍了三种类型的PETL方法：基于适配器的方法、基于提示的方法和基于重参数化的方法。这些方法仅训练少量参数，因此不需要大量的计算资源。结果表明，PETL方法在音乐自动标注方面优于探查和微调。在音调检测和速度估计方面，它们实现了与微调相似的结果，但训练成本显著降低。然而，通过从头开始训练一个小模型所获得的相似结果，也对当前这一代基础模型在音调和速度任务上的有效性提出了质疑。

🔬 方法详解

问题定义：论文旨在解决将大型音乐基础模型高效迁移到下游任务的问题。现有方法，如完全微调，计算成本高昂且容易过拟合。而探查方法虽然计算量小，但由于冻结了预训练模型的权重，可能无法充分利用预训练模型的知识，导致性能受限。

核心思路：论文的核心思路是采用参数高效迁移学习（PETL）方法，通过仅训练少量参数来调整预训练模型，从而在计算效率和性能之间取得平衡。PETL方法旨在保留预训练模型的通用知识，同时针对特定任务进行优化。

技术框架：论文研究了三种PETL方法：1) 基于适配器的方法，在预训练模型的层之间插入小型神经网络模块（适配器），只训练这些适配器的参数。2) 基于提示的方法，通过在输入中添加可学习的提示（prompt）来引导模型，只训练提示的参数。3) 基于重参数化的方法，通过对预训练模型的权重进行重参数化，只训练重参数化后的参数。

关键创新：论文的关键创新在于将参数高效迁移学习方法应用于音乐基础模型，并系统地比较了不同PETL方法在音乐任务上的性能。通过实验证明，PETL方法可以在音乐自动标注任务上超越传统的微调和探查方法，并在其他任务上达到与微调相当的性能，同时显著降低计算成本。

关键设计：具体的技术细节取决于所使用的PETL方法。例如，基于适配器的方法需要设计适配器的网络结构和大小。基于提示的方法需要选择合适的提示类型和长度。基于重参数化的方法需要选择合适的重参数化策略。论文中可能包含了这些方法的具体参数设置和实现细节，但摘要中未明确提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PETL方法在音乐自动标注任务上优于探查和微调。在音调检测和速度估计任务上，PETL方法实现了与微调相似的结果，但训练成本显著降低。然而，论文也指出，在音调检测和速度估计任务上，从头开始训练的小模型也能取得相似的结果，这表明当前基础模型在这些任务上的有效性可能有限。

🎯 应用场景

该研究成果可应用于各种音乐信息检索任务，例如音乐自动标注、音调检测、速度估计等。通过参数高效的迁移学习，可以降低模型部署和训练的成本，使得在资源受限的环境下也能有效利用大型音乐基础模型，加速音乐人工智能应用的发展。

📄 摘要（原文）

More music foundation models are recently being released, promising a general, mostly task independent encoding of musical information. Common ways of adapting music foundation models to downstream tasks are probing and fine-tuning. These common transfer learning approaches, however, face challenges. Probing might lead to suboptimal performance because the pre-trained weights are frozen, while fine-tuning is computationally expensive and is prone to overfitting. Our work investigates the use of parameter-efficient transfer learning (PETL) for music foundation models which integrates the advantage of probing and fine-tuning. We introduce three types of PETL methods: adapter-based methods, prompt-based methods, and reparameterization-based methods. These methods train only a small number of parameters, and therefore do not require significant computational resources. Results show that PETL methods outperform both probing and fine-tuning on music auto-tagging. On key detection and tempo estimation, they achieve similar results as fine-tuning with significantly less training cost. However, the usefulness of the current generation of foundation model on key and tempo tasks is questioned by the similar results achieved by training a small model from scratch. Code available at https://github.com/suncerock/peft-music/

Parameter-Efficient Transfer Learning for Music Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理