A Traditional Approach to Symbolic Piano Continuation

📄 arXiv: 2509.12267v1 📥 PDF

作者: Christian Zhou-Zheng, John Backsund, Dun Li Chan, Alex Coventry, Avid Eslami, Jyotin Goel, Xingwen Han, Danysh Soomro, Galen Wei

分类: cs.SD, cs.LG, cs.MM, eess.AS

发布日期: 2025-09-13

备注: 3 pages, extended abstract, MIREX session at ISMIR 2025 LBD

🔗 代码/项目: GITHUB


💡 一句话要点

针对钢琴音乐续创任务,提出一种基于传统方法的符号音乐生成方案。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 符号音乐生成 钢琴音乐续创 MIDI数据 Transformer模型 下一个token预测

📋 核心要点

  1. 现有计算音乐生成方法侧重于复杂的大型基础模型,但在单乐器续创等受限任务中可能并非最优。
  2. 论文采用简单的下一个token预测方法,直接在token化的MIDI数据上进行训练,避免复杂的架构设计。
  3. 通过优化数据和基础模型,旨在超越大型基础模型在钢琴音乐续创任务上的性能,并开源代码和模型权重。

📝 摘要(中文)

本文提出了一种用于MIREX 2025符号音乐生成挑战赛的传统符号钢琴音乐续创方法。尽管计算音乐生成领域最近专注于开发具有复杂架构修改的大型基础模型,但我们认为,对于受限的单乐器任务,更简单的方法仍然更有效。因此,我们回归到对token化的原始MIDI数据进行简单的、未增强的下一个token预测目标,旨在通过更好的数据和更好的基础来超越大型基础模型。我们将在https://github.com/christianazinn/mirex2025发布模型权重和代码。

🔬 方法详解

问题定义:论文旨在解决符号钢琴音乐的续创问题,即给定一段钢琴音乐的开头,自动生成后续的音乐片段。现有方法,特别是基于大型基础模型的方法,虽然在通用音乐生成任务上表现出色,但在单乐器、风格受限的钢琴音乐续创任务中,可能存在模型复杂度过高、训练数据不足等问题,导致性能不佳。

核心思路:论文的核心思路是回归到更简单、更直接的方法,即下一个token预测。通过将MIDI数据token化,并将续创任务转化为预测下一个token的任务,可以有效地利用现有的序列模型,并避免复杂的架构设计。这种方法更专注于数据质量和模型基础,而非一味追求模型规模。

技术框架:论文采用基于Transformer的序列模型作为核心框架,输入是token化的MIDI数据序列,输出是下一个token的概率分布。整个流程包括数据预处理(MIDI token化)、模型训练(下一个token预测)和音乐生成(循环预测)。

关键创新:论文的关键创新在于对传统方法的重新审视和应用。在大型基础模型盛行的背景下,论文强调了简单方法在特定任务上的有效性。通过优化数据和模型基础,而非依赖复杂的架构,实现了更好的性能。

关键设计:论文的关键设计包括:1) MIDI token化方案的选择,需要平衡表达能力和序列长度;2) Transformer模型的参数设置,如层数、隐藏层大小等,需要在计算资源和模型性能之间进行权衡;3) 损失函数的选择,通常采用交叉熵损失函数,用于衡量预测token的概率分布与真实token之间的差异;4) 训练数据的选择和处理,高质量的训练数据是模型性能的关键。

📊 实验亮点

论文强调通过优化数据和基础模型,而非依赖复杂的架构,来提升钢琴音乐续创的性能。虽然没有给出具体的性能数据,但论文明确指出目标是超越大型基础模型在特定任务上的表现,并开源了代码和模型权重,方便其他研究者复现和改进。

🎯 应用场景

该研究成果可应用于自动作曲、音乐教育、游戏配乐等领域。例如,可以辅助作曲家进行音乐创作,为钢琴学习者提供练习素材,或为游戏开发者提供自动生成的背景音乐。此外,该方法还可以扩展到其他乐器的音乐续创任务中,具有广泛的应用前景。

📄 摘要(原文)

We present a traditional approach to symbolic piano music continuation for the MIREX 2025 Symbolic Music Generation challenge. While computational music generation has recently focused on developing large foundation models with sophisticated architectural modifications, we argue that simpler approaches remain more effective for constrained, single-instrument tasks. We thus return to a simple, unaugmented next-token-prediction objective on tokenized raw MIDI, aiming to outperform large foundation models by using better data and better fundamentals. We release model weights and code at https://github.com/christianazinn/mirex2025.