CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

📄 arXiv: 2506.12285v2 📥 PDF

作者: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa

分类: eess.AS, cs.AI, cs.LG, cs.SD

发布日期: 2025-06-14 (更新: 2025-06-27)

备注: Accepted by ISMIR 2025


💡 一句话要点

CMI-Bench:一个全面的音乐指令跟随评估基准,用于评估音频-文本大语言模型在音乐信息检索任务中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音乐信息检索 音频-文本大语言模型 指令跟随 基准测试 音乐理解 模型评估 多模态学习

📋 核心要点

  1. 现有音乐信息检索(MIR)基准测试在任务类型和评估方式上存在局限性,难以全面评估音频-文本大语言模型(LLMs)的真实音乐理解能力。
  2. CMI-Bench将多种MIR任务转化为指令跟随格式,并采用与传统MIR模型一致的评估指标,从而实现对LLMs的标准化和可比性评估。
  3. 实验结果表明,现有LLMs在MIR任务上与监督模型存在显著差距,并存在文化、时间顺序和性别偏见,揭示了其潜力和局限性。

📝 摘要(中文)

音频-文本大语言模型(LLMs)的最新进展为音乐理解和生成开辟了新的可能性。然而,现有的基准测试范围有限,通常依赖于简化的任务或多项选择评估,无法反映真实世界音乐分析的复杂性。本文将广泛的传统音乐信息检索(MIR)标注重新解释为指令跟随格式,并引入CMI-Bench,这是一个全面的音乐指令跟随基准,旨在评估音频-文本LLMs在一系列音乐信息检索任务中的表现。这些任务包括流派分类、情感回归、情感标签、乐器分类、音高估计、调性检测、歌词转录、旋律提取、声乐技巧识别、乐器演奏技巧检测、音乐标签、音乐描述和(下)节拍跟踪,反映了MIR研究中的核心挑战。与之前的基准测试不同,CMI-Bench采用与先前最先进的MIR模型一致的标准化评估指标,确保与监督方法直接比较。本文提供了一个评估工具包,支持所有开源音频-文本LLMs,包括LTU、Qwen-audio、SALMONN、MusiLingo等。实验结果揭示了LLMs和监督模型之间的显著性能差距,以及它们的文化、时间顺序和性别偏见,突出了当前模型在解决MIR任务中的潜力和局限性。CMI-Bench为评估音乐指令跟随建立了一个统一的基础,推动了音乐感知LLMs的进步。

🔬 方法详解

问题定义:论文旨在解决现有音乐信息检索(MIR)基准测试的局限性问题。现有基准测试通常只关注单一或少数几个任务,且评估方式较为简单,例如多项选择题,无法全面评估音频-文本大语言模型(LLMs)在复杂音乐分析任务中的真实性能。此外,不同基准测试采用的评估指标不统一,导致不同模型之间的性能难以直接比较。

核心思路:论文的核心思路是将各种传统的MIR任务重新定义为指令跟随(Instruction Following)的形式。通过将MIR任务转化为自然语言指令,并要求LLM根据音频输入生成相应的文本输出,从而利用LLM强大的语言理解和生成能力来解决MIR问题。这种方法能够统一不同MIR任务的输入输出格式,并允许使用统一的评估指标进行评估。

技术框架:CMI-Bench的整体框架包括以下几个主要模块:1) 数据集构建:收集并整理涵盖多种MIR任务的音频数据和对应的标注信息。2) 指令生成:将MIR任务的标注信息转化为自然语言指令。3) 模型评估:使用统一的评估指标评估LLM在不同MIR任务上的性能。4) 工具包提供:提供一个易于使用的评估工具包,支持各种开源音频-文本LLM。

关键创新:CMI-Bench的关键创新在于:1) 任务的全面性:涵盖了广泛的MIR任务,包括流派分类、情感回归、乐器识别、音高估计、歌词转录等。2) 评估的标准化:采用与传统MIR模型一致的评估指标,确保与监督方法的可比性。3) 指令跟随范式:将MIR任务转化为指令跟随形式,充分利用LLM的语言理解和生成能力。

关键设计:在指令生成方面,论文设计了清晰明确的自然语言指令,指导LLM完成相应的MIR任务。在评估指标方面,论文采用了与传统MIR任务一致的指标,例如准确率、F1值、均方误差等。此外,论文还考虑了不同MIR任务的特点,对评估指标进行了适当的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的音频-文本大语言模型在CMI-Bench上的性能与传统的监督模型相比仍有显著差距,尤其是在一些复杂的MIR任务上。此外,实验还揭示了现有模型存在文化、时间顺序和性别偏见。例如,模型在识别某些特定文化背景下的音乐时表现较差,或者对不同年代的音乐风格的理解存在偏差。

🎯 应用场景

CMI-Bench可用于评估和比较不同的音频-文本大语言模型在音乐理解和生成方面的能力,推动音乐人工智能领域的发展。该基准测试可以帮助研究人员更好地了解现有模型的优势和不足,并为未来的模型设计提供指导。此外,CMI-Bench还可以应用于音乐教育、音乐创作、音乐推荐等领域。

📄 摘要(原文)

Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.