WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

📄 arXiv: 2509.04744v1 📥 PDF

作者: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-09-05


💡 一句话要点

WildScore:提出一个在真实场景下评估多模态大语言模型音乐推理能力的基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 音乐推理 符号音乐 大语言模型 基准测试

📋 核心要点

  1. 现有的多模态大语言模型在符号音乐领域的推理能力缺乏充分评估,难以应对真实乐谱的复杂分析。
  2. WildScore基准通过收集真实乐谱和用户提问,并构建音乐学本体,将音乐推理转化为多项选择题,实现可控评估。
  3. 实验结果揭示了现有MLLM在视觉-符号音乐推理中的优势和不足,为未来研究指明了方向。

📝 摘要(中文)

多模态大语言模型(MLLM)在各种视觉-语言任务中展现了令人印象深刻的能力。然而,它们在多模态符号音乐领域的推理能力在很大程度上仍未被探索。我们推出了WildScore,这是第一个在真实场景下的多模态符号音乐推理和分析基准,旨在评估MLLM解释真实世界乐谱并回答复杂音乐学问题的能力。WildScore中的每个实例都来自真实的音乐作品,并附有真实用户生成的问题和讨论,捕捉了实际音乐分析的复杂性。为了方便系统评估,我们提出了一个系统的分类法,包括高级和细粒度的音乐学本体。此外,我们将复杂的音乐推理构建为多项选择问答,从而能够对MLLM的符号音乐理解进行可控和可扩展的评估。对最先进的MLLM在WildScore上的实证基准测试揭示了它们在视觉-符号推理中有趣的模式,揭示了MLLM在符号音乐推理和分析中具有希望的方向和持续存在的挑战。我们发布了数据集和代码。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在理解和推理真实世界符号音乐方面的能力评估问题。现有方法缺乏针对音乐领域的专门基准,无法有效评估MLLM在处理真实乐谱和回答复杂音乐学问题方面的能力。现有的数据集和评估方法往往是合成的或过于简化,不能反映真实音乐分析的复杂性。

核心思路:论文的核心思路是构建一个真实场景下的多模态符号音乐推理基准WildScore,该基准包含真实的乐谱图像、用户生成的问题和讨论,以及一个系统的音乐学本体。通过将复杂的音乐推理任务转化为多项选择题,可以对MLLM的音乐理解能力进行可控和可扩展的评估。

技术框架:WildScore基准的构建流程主要包括以下几个阶段:1) 数据收集:从真实的音乐作品中收集乐谱图像和相关的用户提问和讨论。2) 问题构建:将用户提问转化为多项选择题,并提供正确的答案和干扰项。3) 本体构建:构建一个系统的音乐学本体,用于对问题进行分类和分析。4) 模型评估:使用WildScore基准评估现有的MLLM,并分析其在不同类型问题上的表现。

关键创新:WildScore的关键创新在于其真实性和复杂性。与现有的合成数据集相比,WildScore包含真实的乐谱图像和用户生成的问题,能够更好地反映真实音乐分析的复杂性。此外,WildScore还提供了一个系统的音乐学本体,可以用于对问题进行分类和分析,从而更深入地了解MLLM的音乐理解能力。

关键设计:WildScore中的问题类型涵盖了多个音乐学领域,包括旋律、和声、节奏、形式等。每个问题都包含一个乐谱图像和四个选项,其中只有一个是正确的。为了保证问题的质量,论文作者对问题进行了人工审核,并确保每个问题都有明确的答案。

📊 实验亮点

在WildScore基准上,对现有最先进的MLLM进行了评估,结果表明,这些模型在某些类型的音乐推理问题上表现良好,但在其他类型的问题上仍然存在挑战。例如,MLLM在识别简单的旋律模式方面表现出色,但在理解复杂的和声结构方面表现较差。这些结果揭示了MLLM在符号音乐推理和分析中具有希望的方向和持续存在的挑战。

🎯 应用场景

该研究成果可应用于音乐教育、音乐分析、音乐创作等领域。通过评估和提升MLLM的音乐推理能力,可以开发出更智能的音乐学习工具、更强大的音乐分析软件和更具创造力的音乐创作助手。此外,该研究还可以促进多模态大语言模型在其他领域的应用,例如艺术、设计等。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.