ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following

📄 arXiv: 2509.23350v1 📥 PDF

作者: Jiahao Zhao, Yunjia Li, Wei Li, Kazuyoshi Yoshii

分类: cs.SD, cs.AI

发布日期: 2025-09-27


💡 一句话要点

提出ABC-Eval基准,评估大语言模型在符号音乐理解和指令跟随方面的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 符号音乐理解 指令跟随 基准测试 ABC notation

📋 核心要点

  1. 现有大型语言模型在符号音乐理解和推理方面能力不足,缺乏专门的评估基准。
  2. 提出ABC-Eval基准,包含10个子任务,覆盖从音乐语法到序列推理的多种场景,全面评估LLM。
  3. 实验结果表明,现有LLM在ABC-Eval上表现出显著的局限性,验证了基准的可靠性。

📝 摘要(中文)

随着大型语言模型的不断发展,基于文本的符号音乐任务的可行性和重要性日益凸显。虽然符号音乐已被广泛应用于生成任务,但LLM在理解和推理符号音乐方面的能力在很大程度上仍未得到充分探索。为了解决这一差距,我们提出了ABC-Eval,这是第一个专门用于评估基于文本的ABC记谱乐谱的理解和指令跟随能力的开源基准。它包含1086个测试样本,涵盖10个子任务,范围从基本的音乐语法理解到复杂的序列级推理。这种多样化的范围对模型处理符号音乐任务的能力提出了重大挑战。我们评估了ABC-Eval上的七个最先进的LLM,结果表明现有模型在符号音乐处理能力方面存在明显的局限性。此外,各个基线在不同子任务中的一致表现支持了我们基准的可靠性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在理解和处理符号音乐方面的能力评估问题。现有的LLM在文本生成任务中表现出色,但在理解音乐结构、推理音乐关系以及遵循音乐相关的指令方面存在不足。缺乏一个专门的、全面的基准来评估LLM在符号音乐领域的性能,阻碍了该领域的研究进展。

核心思路:论文的核心思路是构建一个高质量、多样化的符号音乐理解和指令跟随基准,即ABC-Eval。该基准基于ABC notation,一种简洁的文本格式音乐表示方法。通过设计一系列涵盖不同难度和类型的子任务,全面评估LLM在音乐理解方面的能力。

技术框架:ABC-Eval基准包含以下主要组成部分:1) 数据集:包含1086个测试样本,涵盖10个子任务,包括音高识别、节奏理解、和弦分析、乐段结构分析等。2) 评估指标:采用准确率、F1值等指标,量化LLM在各个子任务上的表现。3) 基线模型:选取了7个最先进的LLM作为基线模型,包括GPT-3、GPT-4等,用于评估基准的难度和区分度。

关键创新:ABC-Eval是第一个专门针对符号音乐理解和指令跟随的开源基准。其创新之处在于:1) 任务的多样性:涵盖了从基本的音乐语法理解到复杂的序列级推理的多种任务。2) 数据的质量:数据集经过精心设计和验证,保证了数据的准确性和可靠性。3) 评估的全面性:采用多种评估指标,全面评估LLM在不同方面的能力。

关键设计:ABC-Eval的关键设计包括:1) 子任务的选择:子任务的选择基于音乐理论和实践,涵盖了音乐理解的关键方面。2) 数据集的构建:数据集的构建采用了半自动化的方法,结合了人工标注和自动生成。3) 评估指标的选取:评估指标的选取考虑了任务的特点和模型的输出形式,保证了评估的有效性。

🖼️ 关键图片

fig_0

📊 实验亮点

在ABC-Eval基准上,七个最先进的LLM表现出明显的局限性,表明现有模型在符号音乐处理能力方面仍有很大的提升空间。例如,在复杂的序列级推理任务中,模型的准确率普遍低于50%。各个基线在不同子任务中的一致表现支持了基准的可靠性,证明了ABC-Eval能够有效区分不同模型的性能。

🎯 应用场景

该研究成果可应用于音乐教育、音乐创作辅助、音乐信息检索等领域。通过评估和提升LLM在符号音乐理解方面的能力,可以开发出更智能的音乐学习工具,辅助音乐家进行创作,并提高音乐信息检索的准确性和效率。未来,该基准可以促进LLM在音乐领域的更广泛应用。

📄 摘要(原文)

As large language models continue to develop, the feasibility and significance of text-based symbolic music tasks have become increasingly prominent. While symbolic music has been widely used in generation tasks, LLM capabilities in understanding and reasoning about symbolic music remain largely underexplored. To address this gap, we propose ABC-Eval, the first open-source benchmark dedicated to the understanding and instruction-following capabilities in text-based ABC notation scores. It comprises 1,086 test samples spanning 10 sub-tasks, covering scenarios from basic musical syntax comprehension to complex sequence-level reasoning. Such a diverse scope poses substantial challenges to models' ability to handle symbolic music tasks. We evaluated seven state-of-the-art LLMs on ABC-Eval, and the results reveal notable limitations in existing models' symbolic music processing capabilities. Furthermore, the consistent performance of individual baselines across different sub-tasks supports the reliability of our benchmark.