IncompeBench: A Permissively Licensed, Fine-Grained Benchmark for Music Information Retrieval

📄 arXiv: 2602.11941v1 📥 PDF

作者: Benjamin Clavié, Atoof Shakir, Jonah Turner, Sean Lee, Aamir Shakir, Makoto P. Kato

分类: cs.IR, cs.AI

发布日期: 2026-02-12

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

IncompeBench:一个许可宽松、细粒度的音乐信息检索评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音乐信息检索 评测基准 多模态信息检索 数据集 关联性判断

📋 核心要点

  1. 现有的音乐信息检索(MIR)缺乏高质量的评测基准,阻碍了该领域的发展和模型性能的客观评估。
  2. IncompeBench通过提供大量许可宽松的音乐片段、多样化查询和人工标注的关联性判断,填补了这一空白。
  3. 该基准的标注过程采用多阶段流程,确保了人工标注者和生成数据之间的高度一致性,提高了数据集的可靠性。

📝 摘要(中文)

近年来,多模态信息检索取得了显著进展,利用深度预训练模型日益强大的多模态能力来表示跨模态信息。特别是音乐信息检索(MIR)的质量得到了显著提高,音乐的神经表示甚至已经进入了日常生活中。然而,目前缺乏高质量的基准来评估音乐检索性能。为了解决这个问题,我们推出了 extbf{IncompeBench},这是一个经过精心标注的基准,包含1,574个许可宽松、高质量的音乐片段,500个多样化的查询,以及超过125,000个独立的关联性判断。这些注释是通过一个多阶段的流程创建的,从而在人工注释者和生成的数据之间实现了高度一致性。最终的数据集可在https://huggingface.co/datasets/mixedbread-ai/incompebench-strict 和 https://huggingface.co/datasets/mixedbread-ai/incompebench-lenient 上公开获取,提示词可在https://github.com/mixedbread-ai/incompebench-programs 上获取。

🔬 方法详解

问题定义:现有的音乐信息检索研究缺乏一个高质量、许可宽松的评测基准。这使得研究人员难以公平地比较不同模型的性能,也限制了该领域的发展。现有的数据集要么规模较小,要么许可限制严格,要么缺乏细粒度的标注,无法满足当前研究的需求。

核心思路:IncompeBench的核心思路是构建一个大规模、高质量、许可宽松的音乐信息检索评测基准,包含音乐片段、查询和关联性判断。通过精心设计的标注流程,确保数据集的质量和可靠性,为研究人员提供一个公平、客观的评估平台。

技术框架:IncompeBench的构建流程包含以下几个主要阶段:1) 数据收集:收集许可宽松的高质量音乐片段。2) 查询生成:生成多样化的查询,覆盖不同的音乐属性和检索需求。3) 关联性标注:通过多阶段的标注流程,对音乐片段和查询之间的关联性进行标注。4) 数据集发布:将数据集以许可宽松的方式发布,供研究人员使用。

关键创新:IncompeBench的关键创新在于其数据集的规模、质量和许可宽松性。与现有的数据集相比,IncompeBench包含更多的音乐片段、查询和关联性判断,能够更全面地评估模型的性能。此外,IncompeBench的许可宽松性使得研究人员可以更自由地使用该数据集进行研究和开发。

关键设计:IncompeBench的标注流程采用多阶段的设计,包括初步筛选、人工标注和一致性检查等步骤。通过这些步骤,可以有效地提高数据集的质量和可靠性。此外,IncompeBench还提供了两种不同严格程度的数据集版本,以满足不同研究的需求。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

IncompeBench包含1,574个许可宽松的高质量音乐片段,500个多样化的查询,以及超过125,000个独立的关联性判断。该数据集的标注过程采用多阶段流程,确保了人工标注者和生成数据之间的高度一致性。该基准的发布将为音乐信息检索领域的研究提供有力的支持。

🎯 应用场景

IncompeBench可广泛应用于音乐信息检索领域,例如音乐推荐、音乐搜索、音乐分类等。该基准可以帮助研究人员评估和比较不同模型的性能,推动音乐信息检索技术的发展。此外,该基准还可以用于训练和微调音乐相关的深度学习模型,提高模型的性能和泛化能力。

📄 摘要(原文)

Multimodal Information Retrieval has made significant progress in recent years, leveraging the increasingly strong multimodal abilities of deep pre-trained models to represent information across modalities. Music Information Retrieval (MIR), in particular, has considerably increased in quality, with neural representations of music even making its way into everyday life products. However, there is a lack of high-quality benchmarks for evaluating music retrieval performance. To address this issue, we introduce \textbf{IncompeBench}, a carefully annotated benchmark comprising $1,574$ permissively licensed, high-quality music snippets, $500$ diverse queries, and over $125,000$ individual relevance judgements. These annotations were created through the use of a multi-stage pipeline, resulting in high agreement between human annotators and the generated data. The resulting datasets are publicly available at https://huggingface.co/datasets/mixedbread-ai/incompebench-strict and https://huggingface.co/datasets/mixedbread-ai/incompebench-lenient with the prompts available at https://github.com/mixedbread-ai/incompebench-programs.