Direct content-based retrieval from music scores images

作者: Noelia Luna-Barahona, Antonio Ríos-Vila, David Rizo, Jorge Calvo-Zaragoza

分类: cs.CV, cs.IR

发布日期: 2026-05-21

备注: 17 pages (14 pages + references), 3 figures (with subfigures)

💡 一句话要点

提出音乐乐谱图像直接内容检索方法，提升音乐信息检索效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 乐谱图像检索 内容检索 光学音乐识别 Transformer模型 大型语言模型

📋 核心要点

现有乐谱检索主要依赖元数据，缺乏基于图像内容直接检索的能力，限制了检索效率和应用场景。
提出一种系统方法，构建乐谱图像查询数据集，并探索基于OMR、Transformer和LLM的多种内容检索方法。
实验表明，基于OMR的方法在领域内检索表现更优，而无转录模型在处理领域差异性方面更具优势。

📝 摘要（中文）

音乐乐谱的数字化对于其保存和可访问性至关重要，但信息检索仍然主要依赖于诸如标题或作曲家等元数据搜索。与文本文档相比，基于内容的乐谱图像搜索仍未得到充分探索，尽管它对音乐家、音乐学家和教育工作者具有潜在价值。本研究通过首先研究乐谱中哪些特征对于搜索最相关，并定义一种从任何带注释的语料库构建查询数据集的系统方法，为该领域做出贡献。我们还考虑了用于乐谱图像内容搜索的各种方法，从依赖于光学音乐识别 (OMR) 的基于转录的方法，到经过训练可以直接从乐谱图像中识别查询的无转录 Transformer 模型，以及文本提示的大型语言模型。我们的实验在四个语料库上评估这些模型，这些语料库在数据集大小、图像质量和排版机制方面表现出不同的特征。总体而言，每种方法在不同的条件下都表现出色：基于 OMR 的管道实现了更高的领域内检索，而无转录模型更有效地处理了领域可变性。

🔬 方法详解

问题定义：现有音乐乐谱检索主要依赖于标题、作曲家等元数据，用户无法直接通过乐谱图像的内容进行检索。光学音乐识别（OMR）虽然可以将乐谱图像转换为可搜索的格式，但OMR本身的准确率会影响检索结果。此外，不同乐谱的排版风格、图像质量等差异也会给检索带来挑战。因此，如何直接从乐谱图像中进行高效、准确的内容检索是一个亟待解决的问题。

核心思路：本研究的核心思路是探索多种方法，直接从乐谱图像中提取特征并进行检索，避免完全依赖OMR。具体而言，研究比较了基于OMR的传统方法、无转录的Transformer模型以及文本提示的大型语言模型（LLM），旨在找到在不同条件下表现最佳的检索方案。通过对乐谱图像的关键特征进行建模，实现基于内容的相似度匹配，从而实现高效的乐谱检索。

技术框架：整体框架包括三个主要分支：1) 基于OMR的检索：首先使用OMR将乐谱图像转换为机器可读的格式（例如MusicXML），然后基于转换后的文本进行检索。2) 基于Transformer的无转录检索：使用Transformer模型直接从乐谱图像中提取特征，并学习图像特征与查询之间的映射关系。3) 基于文本提示的LLM检索：使用LLM对乐谱图像进行描述，然后基于文本描述进行检索。每个分支都包含预处理、特征提取、索引构建和检索等阶段。

关键创新：本研究的关键创新在于探索了无转录的乐谱图像检索方法，特别是基于Transformer的模型。与传统的基于OMR的方法相比，无转录方法可以避免OMR的错误传播，并且能够更好地处理不同风格和质量的乐谱图像。此外，研究还探索了使用LLM进行乐谱图像检索的可能性，为未来的研究提供了新的思路。

关键设计：在基于Transformer的模型中，使用了视觉Transformer（ViT）作为特征提取器，将乐谱图像分割成patch，然后输入到Transformer编码器中进行特征学习。损失函数方面，使用了对比损失或三元组损失，以鼓励相似的乐谱图像在特征空间中更接近。在基于LLM的方法中，使用了CLIP模型将乐谱图像转换为文本描述，然后使用LLM对文本描述进行编码并进行检索。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于OMR的方法在领域内检索表现最佳，例如在特定排版风格的乐谱上。而无转录的Transformer模型在处理不同数据集和图像质量的乐谱时表现出更强的鲁棒性。研究在四个具有不同特征的乐谱数据集上进行了评估，证明了该方法在不同场景下的有效性。具体性能指标（例如平均精度均值）在论文中有详细报告，但摘要中未明确给出具体数值。

🎯 应用场景

该研究成果可应用于数字音乐图书馆、音乐教育平台和音乐创作辅助工具等领域。音乐家和音乐学者可以通过乐谱图像直接搜索相似的乐谱片段，无需依赖元数据或手动浏览。音乐教育者可以利用该技术创建个性化的教学资源，帮助学生更好地理解和学习音乐。作曲家可以使用该技术寻找灵感，发现新的音乐元素和创作风格。

📄 摘要（原文）

The digitization of musical scores plays a crucial role in their preservation and accessibility, yet information retrieval still depends mainly on metadata searches, such as by title or composer. Content based search in music score images remains underexplored compared to text documents, despite its potential value for musicians, musicologists, and educators. This work contributes to the field by first studying which characteristics of a score are most relevant for search and by defining a systematic method to build query datasets from any annotated corpus. We also consider diverse methods for content-based search on music score images, ranging from transcription-based approaches relying on Optical Music Recognition (OMR), to a transcription-free Transformer model trained to recognize queries directly from score images, and a text-prompted Large Language Model. Our experiments evaluate these models on four corpora exhibiting diverse characteristics in terms of dataset size, image quality, and typesetting mechanisms. Overall, each method excels under different conditions: OMR-based pipelines achieve higher in-domain retrieval, whereas transcription-free models handle domain variability more effectively.

Direct content-based retrieval from music scores images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理