Robust Neural Audio Fingerprinting using Music Foundation Models

📄 arXiv: 2511.05399v1 📥 PDF

作者: Shubhr Singh, Kiran Bhat, Xavier Riley, Benjamin Resnick, John Thickstun, Walter De Brouwer

分类: cs.SD, cs.AI

发布日期: 2025-11-07


💡 一句话要点

利用音乐基础模型,提升音频指纹在失真环境下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频指纹 音乐基础模型 鲁棒性 数据增强 音频识别

📋 核心要点

  1. 现有音频指纹技术在面对现代媒体平台上常见的失真、压缩和篡改音乐时,鲁棒性不足,难以准确识别。
  2. 利用预训练的音乐基础模型提取音频特征,并结合广泛的数据增强策略,提升模型对各种音频变换的适应能力。
  3. 实验表明,基于音乐基础模型的指纹提取方法显著优于传统方法,且能精确定位匹配片段,提升目录管理效率。

📝 摘要(中文)

本文旨在提升音频指纹技术在现代媒体平台(如TikTok)上识别扭曲、压缩和处理过的音乐录音的鲁棒性。为此,我们开发并评估了新的神经音频指纹技术,主要贡献在于:(1) 使用预训练的音乐基础模型作为神经架构的骨干网络;(2) 扩展了数据增强的使用,以在各种音频操作(包括时间拉伸、音高调制、压缩和滤波)下训练指纹模型。通过与两个最先进的神经指纹模型NAFP和GraFPrint的系统性比较,结果表明,使用音乐基础模型(如MuQ、MERT)提取的指纹始终优于从头开始训练或在非音乐音频上预训练的模型。片段级别的评估进一步揭示了它们精确定位指纹匹配的能力,这对于目录管理是一项重要的实用功能。

🔬 方法详解

问题定义:论文旨在解决现代媒体平台上音乐音频指纹识别的鲁棒性问题。现有方法在面对音频失真、压缩、时间拉伸、音高调制和滤波等操作时,识别准确率显著下降,无法满足实际应用需求。

核心思路:论文的核心思路是利用预训练的音乐基础模型学习到的音乐语义特征,这些特征对音频的各种变换具有一定的鲁棒性。同时,通过大量的数据增强,使模型能够适应各种音频操作,从而提高指纹识别的准确率。

技术框架:整体框架包括以下几个主要模块:1) 音频输入;2) 预训练音乐基础模型(如MuQ或MERT)进行特征提取;3) 指纹生成模块(通常是几层神经网络,将音乐基础模型的输出映射到低维指纹向量);4) 指纹匹配模块(计算指纹向量之间的相似度,判断是否匹配)。训练阶段,使用数据增强后的音频样本进行训练,优化指纹生成模块的参数。

关键创新:最重要的创新点在于将音乐基础模型引入音频指纹识别任务。与以往从头训练或使用非音乐音频预训练的模型相比,音乐基础模型能够更好地捕捉音乐的本质特征,从而提高指纹的鲁棒性。此外,论文还系统地研究了各种数据增强方法对指纹识别性能的影响。

关键设计:论文使用了MuQ和MERT等音乐基础模型,这些模型在大量的音乐数据上进行了预训练,能够提取高质量的音乐特征。数据增强策略包括时间拉伸、音高调制、压缩和滤波等。损失函数通常采用对比损失或三元组损失,以鼓励相似音频的指纹向量靠近,不相似音频的指纹向量远离。指纹向量的维度通常设置为较小的值(例如128或256),以降低存储和计算成本。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,基于音乐基础模型(如MuQ、MERT)的音频指纹识别方法,在各种音频失真条件下,显著优于传统的NAFP和GraFPrint模型。具体而言,在某些失真条件下,准确率提升可达10%以上。此外,片段级别的评估表明,该方法能够精确定位匹配的音频片段,这对于版权管理和内容识别具有重要意义。

🎯 应用场景

该研究成果可广泛应用于音乐版权管理、音频内容识别、音乐推荐系统等领域。通过提取鲁棒的音频指纹,可以准确识别未经授权的音乐使用,保护音乐版权。此外,该技术还可以用于识别音频内容,例如在视频平台上去除重复或侵权的音频片段。在音乐推荐系统中,可以利用音频指纹技术识别用户正在收听的音乐,从而提供更精准的推荐。

📄 摘要(原文)

The proliferation of distorted, compressed, and manipulated music on modern media platforms like TikTok motivates the development of more robust audio fingerprinting techniques to identify the sources of musical recordings. In this paper, we develop and evaluate new neural audio fingerprinting techniques with the aim of improving their robustness. We make two contributions to neural fingerprinting methodology: (1) we use a pretrained music foundation model as the backbone of the neural architecture and (2) we expand the use of data augmentation to train fingerprinting models under a wide variety of audio manipulations, including time streching, pitch modulation, compression, and filtering. We systematically evaluate our methods in comparison to two state-of-the-art neural fingerprinting models: NAFP and GraFPrint. Results show that fingerprints extracted with music foundation models (e.g., MuQ, MERT) consistently outperform models trained from scratch or pretrained on non-musical audio. Segment-level evaluation further reveals their capability to accurately localize fingerprint matches, an important practical feature for catalog management.