VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

📄 arXiv: 2605.04613v1 📥 PDF

作者: Yukun Chen, Tianrui Wang, Zhaoxi Mu, Xinyu Yang, EngSiong Chng

分类: cs.SD, cs.AI

发布日期: 2026-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

VocalParse:基于大型音频语言模型的统一可扩展歌声转录方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 歌声转录 大型音频语言模型 歌声合成 思维链提示 交错提示 音乐信息检索 自动标注

📋 核心要点

  1. 现有歌声转录系统依赖复杂流程,文本-音符对齐困难,且泛化性差。
  2. VocalParse利用大型音频语言模型,通过交错提示联合建模歌词、旋律和词-音符对应。
  3. VocalParse采用思维链提示,先解码歌词作为语义支架,实验证明其SVT性能达到SOTA。

📝 摘要(中文)

高质量的歌唱标注是现代歌声合成(SVS)系统的基础。然而,通过手动标注大规模获取这些标注是不现实的,因为这需要大量的人力和音乐专业知识,因此自动标注变得非常必要。尽管现有的自动转录系统具有实用性,但它们面临着重大挑战:它们通常依赖于复杂的多阶段流程,难以恢复文本-音符对齐,并且对分布外(OOD)的歌唱数据泛化能力较差。为了缓解这些问题,我们提出了VocalParse,一个建立在大型音频语言模型(LALM)之上的统一歌声转录(SVT)模型。具体来说,我们的新颖贡献是引入了一种交错提示公式,该公式联合建模歌词、旋律和词-音符对应关系,从而产生直接映射到结构化乐谱的生成序列。此外,我们提出了一种思维链(CoT)风格的提示策略,该策略首先解码歌词作为语义支架,从而显着减轻了上下文中断问题,同时保留了交错生成的结构优势。实验表明,VocalParse在多个歌唱数据集上实现了最先进的SVT性能。

🔬 方法详解

问题定义:论文旨在解决歌声转录(SVT)问题,即自动将歌声音频转换为包含歌词、旋律和词-音符对应关系的结构化乐谱。现有方法通常采用复杂的多阶段流水线,难以实现文本-音符的精确对齐,并且在面对分布外(OOD)的歌唱数据时表现出较差的泛化能力。手动标注成本高昂,需要专业的音乐知识和大量的人力。

核心思路:论文的核心思路是利用大型音频语言模型(LALM)的强大生成能力,通过一种统一的框架同时建模歌词、旋律和词-音符对应关系。通过交错提示(interleaved prompting)的方式,将这三个要素整合到一个生成序列中,从而直接映射到结构化的乐谱。此外,引入思维链(Chain-of-Thought, CoT)提示策略,先生成歌词作为语义支架,有助于缓解上下文中断问题,提升生成质量。

技术框架:VocalParse的整体框架基于大型音频语言模型(LALM)。输入是歌声音频,通过LALM生成包含歌词、旋律和词-音符对应关系的交错序列。该序列可以直接转换为结构化的乐谱。关键模块包括:音频编码器(将音频转换为特征表示)、LALM(负责序列生成)和解码器(将生成的序列转换为乐谱)。CoT提示策略在LALM生成过程中起作用,引导模型先生成歌词。

关键创新:论文的关键创新在于以下几点:1) 提出了一种统一的歌声转录框架,能够同时建模歌词、旋律和词-音符对应关系,避免了复杂的多阶段流水线。2) 引入了交错提示公式,将歌词、旋律和词-音符对应关系整合到一个生成序列中。3) 提出了思维链提示策略,通过先生成歌词作为语义支架,缓解了上下文中断问题。与现有方法相比,VocalParse更加简洁高效,并且具有更好的泛化能力。

关键设计:论文中关于参数设置、损失函数和网络结构的具体技术细节没有详细描述。但是,CoT提示策略的关键在于如何设计提示语,引导模型先生成歌词。交错提示公式的设计需要仔细考虑歌词、旋律和词-音符对应关系在序列中的排列方式,以保证生成序列的结构化和可解释性。损失函数的设计需要同时考虑歌词、旋律和词-音符对应关系的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VocalParse在多个歌唱数据集上实现了最先进的(SOTA)歌声转录(SVT)性能。论文中没有给出具体的性能数据和对比基线,但强调了VocalParse在多个数据集上超越了现有方法。实验结果表明,VocalParse能够有效地建模歌词、旋律和词-音符对应关系,并且具有较好的泛化能力。

🎯 应用场景

VocalParse具有广泛的应用前景,包括:歌声合成(SVS)系统的数据标注、音乐教育、音乐信息检索、自动音乐创作等。高质量的歌声转录可以降低歌声合成系统的开发成本,提高合成效果。在音乐教育领域,VocalParse可以帮助学生学习音乐理论和歌唱技巧。在音乐信息检索领域,VocalParse可以用于歌曲的自动分析和分类。未来,VocalParse可以与人工智能音乐创作系统结合,实现更加智能化的音乐创作。

📄 摘要(原文)

High-quality singing annotations are fundamental to modern Singing Voice Synthesis (SVS) systems. However, obtaining these annotations at scale through manual labeling is unrealistic due to the substantial labor and musical expertise required, making automatic annotation highly necessary. Despite their utility, current automatic transcription systems face significant challenges: they often rely on complex multi-stage pipelines, struggle to recover text-note alignments, and exhibit poor generalization to out-of-distribution (OOD) singing data. To alleviate these issues, we present VocalParse, a unified singing voice transcription (SVT) model built upon a Large Audio Language Model (LALM). Specifically, our novel contribution is to introduce an interleaved prompting formulation that jointly models lyrics, melody, and word-note correspondence, yielding a generated sequence that directly maps to a structured musical score. Furthermore, we propose a Chain-of-Thought (CoT) style prompting strategy, which decodes lyrics first as a semantic scaffold, significantly mitigating the context disruption problem while preserving the structural benefits of interleaved generation. Experiments demonstrate that VocalParse achieves state-of-the-art SVT performance on multiple singing datasets. The source code and checkpoint are available at https://github.com/pymaster17/VocalParse.