Contrastive Learning with Spectrum Information Augmentation in Abnormal Sound Detection

📄 arXiv: 2509.15570v1 📥 PDF

作者: Xinxin Meng, Jiangtao Guo, Yunxiang Zhang, Shun Huang

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-09-19

备注: Accepted CVIPPR 2024 April Xiamen China


💡 一句话要点

提出基于频谱信息增强的对比学习方法,用于异常声音检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 异常声音检测 对比学习 数据增强 频谱分析 无监督学习

📋 核心要点

  1. 无监督异常声音检测旨在学习正常声音的分布,现有方法难以有效区分正常与异常声音。
  2. 论文提出一种基于频谱信息增强的对比学习方法,通过增强高频信息,使模型更关注低频的正常模式。
  3. 实验表明,该方法在DCASE 2020和2022 Task 2数据集上优于其他对比学习方法,具有良好的泛化性。

📝 摘要(中文)

本文提出了一种基于异常声音检测中,利用异常值暴露方法解决无监督异常声音检测问题。该方法的核心在于如何使模型学习正常数据的分布空间。基于生物感知和数据分析,发现异常音频和噪声通常具有更高的频率。因此,我们提出了一种针对对比学习中高频信息的数据增强方法。这使得模型更加关注音频的低频信息,这些信息代表了机器的正常运行模式。我们在DCASE 2020 Task 2上评估了所提出的方法。结果表明,我们的方法优于该数据集上使用的其他对比学习方法。我们还在DCASE 2022 Task 2数据集上评估了我们方法的泛化能力。

🔬 方法详解

问题定义:异常声音检测旨在判断机器运行声音是否正常。现有基于对比学习的方法在学习正常声音分布时,容易受到噪声和异常声音高频成分的干扰,导致模型难以有效区分正常和异常声音。

核心思路:论文的核心思路是利用异常声音和噪声通常具有较高频率的特性,通过数据增强的方式,使模型更加关注正常声音的低频信息。这样,模型就能更好地学习正常声音的分布,从而提高异常声音的检测性能。

技术框架:该方法基于对比学习框架,主要包括以下几个阶段:1) 数据预处理:对输入音频进行频谱分析,提取频谱信息。2) 数据增强:对频谱信息进行高频增强,生成新的样本。3) 对比学习:利用增强后的样本和原始样本进行对比学习,训练模型。4) 异常检测:利用训练好的模型对测试音频进行异常检测。

关键创新:该方法最重要的技术创新点在于提出了频谱信息增强的数据增强方法。与传统的对比学习方法不同,该方法不是随机地对数据进行增强,而是有针对性地增强高频信息,从而使模型更加关注低频的正常模式。

关键设计:论文的关键设计包括:1) 高频增强的具体方法,例如可以采用频谱掩蔽或频谱提升等技术。2) 对比学习的损失函数,例如可以使用InfoNCE损失函数。3) 网络结构的选择,例如可以使用卷积神经网络或Transformer网络。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在DCASE 2020 Task 2数据集上优于其他对比学习方法。此外,该方法在DCASE 2022 Task 2数据集上也表现出良好的泛化能力,证明了其在不同场景下的有效性。具体的性能提升数据在论文中给出,但摘要中未明确提及。

🎯 应用场景

该研究成果可应用于工业设备健康监测、智能家居安全、医疗诊断等领域。通过分析设备运行声音,可以及时发现潜在故障,降低维护成本,提高生产效率。在智能家居领域,可以用于检测异常声音,如玻璃破碎、婴儿哭闹等,提高家庭安全性。在医疗领域,可以用于辅助诊断,例如通过分析呼吸声来判断是否存在呼吸系统疾病。

📄 摘要(原文)

The outlier exposure method is an effective approach to address the unsupervised anomaly sound detection problem. The key focus of this method is how to make the model learn the distribution space of normal data. Based on biological perception and data analysis, it is found that anomalous audio and noise often have higher frequencies. Therefore, we propose a data augmentation method for high-frequency information in contrastive learning. This enables the model to pay more attention to the low-frequency information of the audio, which represents the normal operational mode of the machine. We evaluated the proposed method on the DCASE 2020 Task 2. The results showed that our method outperformed other contrastive learning methods used on this dataset. We also evaluated the generalizability of our method on the DCASE 2022 Task 2 dataset.