Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio

📄 arXiv: 2505.12863v1 📥 PDF

作者: Jongmin Jung, Dongmin Kim, Sihun Lee, Seola Cho, Hyungjoon Soh, Irmak Bukey, Chris Donahue, Dasaem Jeong

分类: cs.SD, cs.AI, cs.CV, eess.AS

发布日期: 2025-05-19

备注: Submitted to IEEE Transactions on Audio, Speech and Language Processing (TASLPRO)


💡 一句话要点

提出统一跨模态翻译框架,实现乐谱图像、符号音乐和演奏音频间的转换。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态翻译 音乐信息检索 序列到序列模型 Transformer 多任务学习 光学乐谱识别 音频生成

📋 核心要点

  1. 现有音乐模态翻译方法通常针对特定任务训练独立模型,缺乏通用性和效率。
  2. 提出一种统一的跨模态翻译框架,通过token化各种音乐模态,使用单个Transformer模型处理多个翻译任务。
  3. 实验表明,该方法在光学乐谱识别等任务上显著提升性能,并首次实现乐谱图像条件下的音频生成。

📝 摘要(中文)

音乐以多种模态存在,如乐谱图像、符号乐谱、MIDI和音频。模态间的转换是音乐信息检索的核心任务,例如自动音乐转录(音频到MIDI)和光学乐谱识别(乐谱图像到符号乐谱)。然而,过去关于多模态翻译的大部分工作都在各个翻译任务上训练专门的模型。本文提出了一种统一的方法,在一个通用模型上同时训练多个翻译任务。这种统一方法的可行性基于两个关键因素:一个新的大规模数据集和每个模态的token化。首先,我们提出了一个新的数据集,包含超过1300小时的配对音频-乐谱图像数据,这些数据来自YouTube视频,比任何现有的音乐模态翻译数据集大一个数量级。其次,我们的统一token化框架将乐谱图像、音频、MIDI和MusicXML离散化为token序列,使单个编码器-解码器Transformer能够将多个跨模态翻译作为连贯的序列到序列任务来处理。实验结果表明,我们的统一多任务模型在几个关键领域优于单任务基线,特别是将光学乐谱识别的符号错误率从24.58%降低到最先进的13.67%,并且在其他翻译任务中也观察到类似的显著改进。值得注意的是,我们的方法首次成功实现了乐谱图像条件下的音频生成,标志着跨模态音乐生成的一个重大突破。

🔬 方法详解

问题定义:现有音乐模态翻译方法通常针对特定任务训练独立的模型,例如,一个模型用于音频到MIDI的转换,另一个模型用于乐谱图像到符号乐谱的转换。这种方式缺乏通用性,并且难以利用不同模态之间的关联信息。此外,现有数据集规模较小,限制了模型的性能。

核心思路:论文的核心思路是将各种音乐模态(乐谱图像、符号乐谱、MIDI、音频)统一表示为token序列,然后使用一个通用的序列到序列模型(Transformer)来学习不同模态之间的转换。通过多任务学习,模型可以共享不同模态之间的知识,从而提高整体性能。

技术框架:整体框架是一个标准的编码器-解码器Transformer模型。首先,使用特定的token化方法将每种模态的数据转换为token序列。然后,编码器将输入token序列编码为隐藏表示,解码器根据编码器的输出生成目标token序列。通过联合训练多个翻译任务,模型可以学习不同模态之间的映射关系。

关键创新:该论文的关键创新在于提出了一个统一的跨模态翻译框架,能够同时处理多种音乐模态之间的转换。与以往的单任务模型相比,该框架具有更高的通用性和效率。此外,论文还提出了一个大规模的配对音频-乐谱图像数据集,为模型的训练提供了充足的数据。

关键设计:论文使用了Transformer作为核心模型,并针对不同的模态设计了特定的token化方法。例如,对于乐谱图像,使用了图像块的token化方法;对于音频,使用了VQ-VAE将音频量化为离散的token。损失函数是标准的交叉熵损失,用于衡量生成token序列与目标token序列之间的差异。在训练过程中,使用了多任务学习策略,平衡不同任务之间的损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在光学乐谱识别任务上取得了显著的性能提升,将符号错误率从24.58%降低到13.67%,达到了state-of-the-art水平。此外,该方法还首次成功实现了乐谱图像条件下的音频生成,为跨模态音乐生成开辟了新的方向。在其他翻译任务中也观察到类似的性能提升。

🎯 应用场景

该研究成果可应用于自动音乐转录、光学乐谱识别、音乐生成等领域。例如,可以根据乐谱图像自动生成对应的音频,或者根据音频自动生成乐谱。此外,该技术还可以用于音乐教育和创作,帮助用户更方便地进行音乐学习和创作。

📄 摘要(原文)

Music exists in various modalities, such as score images, symbolic scores, MIDI, and audio. Translations between each modality are established as core tasks of music information retrieval, such as automatic music transcription (audio-to-MIDI) and optical music recognition (score image to symbolic score). However, most past work on multimodal translation trains specialized models on individual translation tasks. In this paper, we propose a unified approach, where we train a general-purpose model on many translation tasks simultaneously. Two key factors make this unified approach viable: a new large-scale dataset and the tokenization of each modality. Firstly, we propose a new dataset that consists of more than 1,300 hours of paired audio-score image data collected from YouTube videos, which is an order of magnitude larger than any existing music modal translation datasets. Secondly, our unified tokenization framework discretizes score images, audio, MIDI, and MusicXML into a sequence of tokens, enabling a single encoder-decoder Transformer to tackle multiple cross-modal translation as one coherent sequence-to-sequence task. Experimental results confirm that our unified multitask model improves upon single-task baselines in several key areas, notably reducing the symbol error rate for optical music recognition from 24.58% to a state-of-the-art 13.67%, while similarly substantial improvements are observed across the other translation tasks. Notably, our approach achieves the first successful score-image-conditioned audio generation, marking a significant breakthrough in cross-modal music generation.