Investigating the Sensitivity of Pre-trained Audio Embeddings to Common Effects
作者: Victor Deng, Changhong Wang, Gael Richard, Brian McFee
分类: cs.LG
发布日期: 2025-01-27
期刊: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Apr 2025, Hyderabad, India
💡 一句话要点
研究预训练音频嵌入对常见音频效果的敏感性,揭示其鲁棒性局限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频嵌入 预训练模型 音频效果 鲁棒性 典型相关分析
📋 核心要点
- 现有预训练音频模型作为特征提取器,其对常见音频效果的鲁棒性缺乏深入研究。
- 通过分析音频效果对嵌入空间的影响,量化形变轨迹的维度和线性化程度,评估模型对音频效果的敏感性。
- 实验表明,预训练音频嵌入并未全局线性化音频效果,且简单投影无法有效提升鲁棒性。
📝 摘要(中文)
近年来,基础模型显著推动了各个领域的数据驱动系统。然而,它们作为特征提取器的内在属性仍未被充分探索。本文研究了从广泛使用的基础模型(包括OpenL3、PANNs和CLAP)中提取的音频嵌入对音频效果的敏感性。我们关注音频效果作为敏感性的来源,因为它们普遍存在于大型音频数据集中。通过应用参数化的音频效果(增益、低通滤波、混响和比特压缩),我们分析了嵌入空间中形变轨迹与效果强度之间的相关性。我们提出使用典型相关分析来量化音频效果引起的形变轨迹的维度和线性化程度。我们发现,存在一个方向,沿着该方向,嵌入随着音频效果强度的增加而单调移动,但包含位移的子空间通常是高维的。这表明预训练音频嵌入并未全局线性化这些效果。我们在乐器分类下游任务上的实验结果证实,投影出估计的形变方向通常不能提高预训练嵌入对音频效果的鲁棒性。
🔬 方法详解
问题定义:论文旨在研究预训练音频嵌入对常见音频效果的敏感性。现有方法虽然在音频表征学习上取得了显著进展,但忽略了音频数据集中普遍存在的音频效果(如增益、滤波、混响等)对模型性能的影响。这些音频效果可能导致模型泛化能力下降,尤其是在实际应用场景中。因此,如何评估和提升预训练音频嵌入对这些音频效果的鲁棒性是一个重要问题。
核心思路:论文的核心思路是通过系统性地分析音频效果对预训练音频嵌入空间的影响,来评估模型的敏感性。具体来说,通过对音频数据施加不同强度的音频效果,观察嵌入空间中形变轨迹的变化,并量化这些轨迹的维度和线性化程度。如果嵌入空间能够线性地表示这些音频效果,则表明模型对这些效果具有较强的鲁棒性。反之,则表明模型对这些效果较为敏感。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择预训练音频模型(OpenL3、PANNs、CLAP);2) 对音频数据应用参数化的音频效果(增益、低通滤波、混响、比特压缩);3) 提取音频嵌入,并分析嵌入空间中形变轨迹与效果强度之间的相关性;4) 使用典型相关分析(CCA)量化形变轨迹的维度和线性化程度;5) 在乐器分类下游任务上评估鲁棒性,并尝试通过投影出估计的形变方向来提升鲁棒性。
关键创新:论文的关键创新在于:1) 系统性地研究了预训练音频嵌入对常见音频效果的敏感性,填补了该领域的空白;2) 提出了使用典型相关分析(CCA)来量化嵌入空间中形变轨迹的维度和线性化程度的方法,为评估模型的鲁棒性提供了一种新的思路;3) 实验结果表明,预训练音频嵌入并未全局线性化这些效果,且简单投影无法有效提升鲁棒性,为后续研究提供了重要的参考。
关键设计:论文的关键设计包括:1) 选择了具有代表性的预训练音频模型(OpenL3、PANNs、CLAP)进行研究;2) 选择了常见的音频效果(增益、低通滤波、混响、比特压缩)作为研究对象;3) 使用参数化的方式控制音频效果的强度,以便系统性地分析其对嵌入空间的影响;4) 使用典型相关分析(CCA)来量化形变轨迹的维度和线性化程度,并设计了相应的评估指标;5) 在乐器分类下游任务上评估鲁棒性,并尝试通过投影出估计的形变方向来提升鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,预训练音频嵌入对音频效果的敏感性较高,嵌入空间中的形变轨迹通常是高维且非线性的。在乐器分类下游任务上,简单地投影出估计的形变方向并不能显著提高模型的鲁棒性。这表明需要更复杂的方法来解决预训练音频嵌入对音频效果的敏感性问题。
🎯 应用场景
该研究成果可应用于提升音频分类、音频检索等任务在真实场景下的性能。通过了解预训练模型对音频效果的敏感性,可以设计更鲁棒的音频处理系统,例如在语音识别、音乐信息检索等领域,提高模型在噪声环境下的性能。此外,该研究也为未来设计更具鲁棒性的音频预训练模型提供了指导。
📄 摘要(原文)
In recent years, foundation models have significantly advanced data-driven systems across various domains. Yet, their underlying properties, especially when functioning as feature extractors, remain under-explored. In this paper, we investigate the sensitivity to audio effects of audio embeddings extracted from widely-used foundation models, including OpenL3, PANNs, and CLAP. We focus on audio effects as the source of sensitivity due to their prevalent presence in large audio datasets. By applying parameterized audio effects (gain, low-pass filtering, reverberation, and bitcrushing), we analyze the correlation between the deformation trajectories and the effect strength in the embedding space. We propose to quantify the dimensionality and linearizability of the deformation trajectories induced by audio effects using canonical correlation analysis. We find that there exists a direction along which the embeddings move monotonically as the audio effect strength increases, but that the subspace containing the displacements is generally high-dimensional. This shows that pre-trained audio embeddings do not globally linearize the effects. Our empirical results on instrument classification downstream tasks confirm that projecting out the estimated deformation directions cannot generally improve the robustness of pre-trained embeddings to audio effects.