WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

作者: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-09-05

💡 一句话要点

WildScore：提出一个在真实场景下评估多模态大语言模型音乐推理能力的基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 音乐推理 符号音乐 大语言模型 基准测试

📋 核心要点

现有的多模态大语言模型在符号音乐领域的推理能力缺乏充分评估，难以应对真实乐谱的复杂分析。
WildScore基准通过收集真实乐谱和用户提问，并构建音乐学本体，将音乐推理转化为多项选择题，实现可控评估。
实验结果揭示了现有MLLM在视觉-符号音乐推理中的优势和不足，为未来研究指明了方向。

📝 摘要（中文）

多模态大语言模型（MLLM）在各种视觉-语言任务中展现了令人印象深刻的能力。然而，它们在多模态符号音乐领域的推理能力在很大程度上仍未被探索。我们推出了WildScore，这是第一个在真实场景下的多模态符号音乐推理和分析基准，旨在评估MLLM解释真实世界乐谱并回答复杂音乐学问题的能力。WildScore中的每个实例都来自真实的音乐作品，并附有真实用户生成的问题和讨论，捕捉了实际音乐分析的复杂性。为了方便系统评估，我们提出了一个系统的分类法，包括高级和细粒度的音乐学本体。此外，我们将复杂的音乐推理构建为多项选择问答，从而能够对MLLM的符号音乐理解进行可控和可扩展的评估。对最先进的MLLM在WildScore上的实证基准测试揭示了它们在视觉-符号推理中有趣的模式，揭示了MLLM在符号音乐推理和分析中具有希望的方向和持续存在的挑战。我们发布了数据集和代码。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在理解和推理真实世界符号音乐方面的能力评估问题。现有方法缺乏针对音乐领域的专门基准，无法有效评估MLLM在处理真实乐谱和回答复杂音乐学问题方面的能力。现有的数据集和评估方法往往是合成的或过于简化，不能反映真实音乐分析的复杂性。

核心思路：论文的核心思路是构建一个真实场景下的多模态符号音乐推理基准WildScore，该基准包含真实的乐谱图像、用户生成的问题和讨论，以及一个系统的音乐学本体。通过将复杂的音乐推理任务转化为多项选择题，可以对MLLM的音乐理解能力进行可控和可扩展的评估。

技术框架：WildScore基准的构建流程主要包括以下几个阶段：1) 数据收集：从真实的音乐作品中收集乐谱图像和相关的用户提问和讨论。2) 问题构建：将用户提问转化为多项选择题，并提供正确的答案和干扰项。3) 本体构建：构建一个系统的音乐学本体，用于对问题进行分类和分析。4) 模型评估：使用WildScore基准评估现有的MLLM，并分析其在不同类型问题上的表现。

关键创新：WildScore的关键创新在于其真实性和复杂性。与现有的合成数据集相比，WildScore包含真实的乐谱图像和用户生成的问题，能够更好地反映真实音乐分析的复杂性。此外，WildScore还提供了一个系统的音乐学本体，可以用于对问题进行分类和分析，从而更深入地了解MLLM的音乐理解能力。

关键设计：WildScore中的问题类型涵盖了多个音乐学领域，包括旋律、和声、节奏、形式等。每个问题都包含一个乐谱图像和四个选项，其中只有一个是正确的。为了保证问题的质量，论文作者对问题进行了人工审核，并确保每个问题都有明确的答案。

📊 实验亮点

在WildScore基准上，对现有最先进的MLLM进行了评估，结果表明，这些模型在某些类型的音乐推理问题上表现良好，但在其他类型的问题上仍然存在挑战。例如，MLLM在识别简单的旋律模式方面表现出色，但在理解复杂的和声结构方面表现较差。这些结果揭示了MLLM在符号音乐推理和分析中具有希望的方向和持续存在的挑战。

🎯 应用场景

该研究成果可应用于音乐教育、音乐分析、音乐创作等领域。通过评估和提升MLLM的音乐推理能力，可以开发出更智能的音乐学习工具、更强大的音乐分析软件和更具创造力的音乐创作助手。此外，该研究还可以促进多模态大语言模型在其他领域的应用，例如艺术、设计等。

📄 摘要（原文）

Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册