Scaling Self-Supervised Representation Learning for Symbolic Piano Performance

📄 arXiv: 2506.23869v1 📥 PDF

作者: Louis Bradshaw, Honglu Fan, Alexander Spangher, Stella Biderman, Simon Colton

分类: cs.SD, cs.AI, cs.LG, eess.AS

发布日期: 2025-06-30

备注: ISMIR (2025)


💡 一句话要点

提出自监督表示学习方法以提升符号钢琴表演生成能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 符号音乐生成 生成模型 对比学习 钢琴表演

📋 核心要点

  1. 现有的符号音乐生成方法在生成一致性和多样性方面存在不足,难以满足实际应用需求。
  2. 论文提出了一种基于生成自回归变换器的自监督学习框架,通过大规模预训练和高质量微调来提升模型性能。
  3. 实验结果表明,所提模型在钢琴延续生成和MIR分类任务中均取得了领先的性能,展示了良好的泛化能力。

📝 摘要(中文)

本研究探讨了在大量符号钢琴乐谱上训练的生成自回归变换器模型的能力。首先在约60,000小时的音乐上进行预训练,然后利用较小的高质量子集对模型进行微调,以生成音乐延续、执行符号分类任务,并通过调整SimCLR框架为符号音乐生成通用对比MIDI嵌入。在评估钢琴延续一致性时,我们的生成模型超越了领先的符号生成技术,并与专有音频生成模型保持竞争力。在MIR分类基准测试中,来自对比模型的冻结表示在线性探测实验中达到了最先进的结果,而直接微调则展示了预训练表示的可泛化性,通常只需几百个标记样本即可专门化到下游任务。

🔬 方法详解

问题定义:本研究旨在解决现有符号音乐生成技术在一致性和多样性方面的不足,尤其是在钢琴表演的生成任务中。现有方法往往依赖于有限的标记数据,导致生成结果的质量和多样性受限。

核心思路:论文的核心思路是利用大规模的符号钢琴乐谱进行自监督学习,通过预训练和微调相结合的方法,提升模型在生成和分类任务中的表现。通过引入对比学习框架,增强模型对音乐特征的理解和表示能力。

技术框架:整体架构包括两个主要阶段:首先是对约60,000小时音乐数据的预训练,接着是使用高质量子集进行微调。模型的训练过程包括生成音乐延续、符号分类和对比嵌入的学习。

关键创新:本研究的关键创新在于将SimCLR框架适配于符号音乐,生成通用的对比MIDI嵌入,并在钢琴延续生成任务中超越了传统的符号生成技术。与现有方法相比,模型在生成一致性和多样性方面表现更佳。

关键设计:在模型设计中,采用了自回归变换器架构,结合了适当的损失函数和参数设置,以优化生成质量和分类性能。微调过程中,模型仅需少量标记样本即可实现良好的下游任务适应性。

📊 实验亮点

实验结果显示,所提生成模型在钢琴延续一致性评估中超越了领先的符号生成技术,并与专有音频生成模型保持竞争力。在MIR分类基准测试中,冻结表示在线性探测实验中达到了最先进的结果,展示了模型的优越性能和良好的泛化能力。

🎯 应用场景

该研究的潜在应用领域包括音乐创作、自动伴奏生成和音乐教育等。通过提升符号钢琴表演的生成能力,能够为音乐创作者提供更高效的工具,同时也为音乐学习者提供个性化的学习体验。未来,该技术有望在音乐生成和分析领域产生深远影响。

📄 摘要(原文)

We study the capabilities of generative autoregressive transformer models trained on large amounts of symbolic solo-piano transcriptions. After first pretraining on approximately 60,000 hours of music, we use a comparatively smaller, high-quality subset, to finetune models to produce musical continuations, perform symbolic classification tasks, and produce general-purpose contrastive MIDI embeddings by adapting the SimCLR framework to symbolic music. When evaluating piano continuation coherence, our generative model outperforms leading symbolic generation techniques and remains competitive with proprietary audio generation models. On MIR classification benchmarks, frozen representations from our contrastive model achieve state-of-the-art results in linear probe experiments, while direct finetuning demonstrates the generalizability of pretrained representations, often requiring only a few hundred labeled examples to specialize to downstream tasks.