Noise Supervised Contrastive Learning and Feature-Perturbed for Anomalous Sound Detection

📄 arXiv: 2509.13853v2 📥 PDF

作者: Shun Huang, Zhihua Fang, Liang He

分类: cs.SD, cs.CL

发布日期: 2025-09-17 (更新: 2025-09-18)

备注: Accepted ICASSP 2025


💡 一句话要点

提出噪声监督对比学习和特征扰动方法,提升异常声音检测在同类型机器上的准确率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 异常声音检测 对比学习 特征扰动 噪声监督 工业设备健康监测

📋 核心要点

  1. 现有自监督异常声音检测方法在处理来自不同机器的同类型样本时,容易产生较高的误报率,影响实际应用。
  2. 论文提出单阶段噪声监督对比学习(OS-SCL),通过特征扰动和噪声监督,增强模型对正常声音的泛化能力。
  3. 实验结果表明,该方法在DCASE 2020 Challenge Task 2数据集上取得了显著的性能提升,AUC指标最高达到95.71%。

📝 摘要(中文)

本文提出了一种新颖的训练技术,称为单阶段监督对比学习(OS-SCL),旨在解决无监督异常声音检测中,处理来自不同机器的同类型样本时频繁出现误报的问题。该方法通过在嵌入空间中扰动特征,并采用单阶段噪声监督对比学习方法,显著改善了这一问题。在DCASE 2020 Challenge Task 2上,仅使用Log-Mel特征就实现了94.64%的AUC,88.42%的pAUC和89.24%的mAUC。此外,还提出了一种名为TFgram的时频特征,该特征从原始音频中提取,有效地捕捉了异常声音检测的关键信息,最终实现了95.71%的AUC,90.23%的pAUC和91.23%的mAUC。

🔬 方法详解

问题定义:异常声音检测旨在仅使用正常音频数据训练模型,从而检测未知的异常声音。现有方法在处理来自不同机器的同类型样本时,容易出现误报,降低了检测的准确性和可靠性。这主要是因为模型难以区分同一类型机器的细微差异,将其误判为异常。

核心思路:论文的核心思路是通过监督对比学习,使模型学习到更鲁棒的正常声音表示。具体来说,通过在嵌入空间中对特征进行扰动,并引入噪声监督机制,迫使模型关注正常声音的本质特征,忽略机器间的细微差异,从而减少误报。

技术框架:整体框架包含特征提取、特征扰动、对比学习和异常评分四个主要阶段。首先,从原始音频中提取Log-Mel特征和TFgram特征。然后,对提取的特征进行扰动,生成多个不同的特征表示。接着,使用噪声监督对比学习方法,训练模型学习正常声音的鲁棒表示。最后,通过计算测试样本与正常样本之间的距离,进行异常评分。

关键创新:最重要的技术创新点在于提出的单阶段噪声监督对比学习(OS-SCL)方法。与传统的对比学习方法不同,OS-SCL在对比学习过程中引入了噪声监督,迫使模型学习对噪声具有鲁棒性的特征表示。此外,提出的TFgram特征能够有效地捕捉异常声音检测的关键信息。

关键设计:在特征扰动方面,采用了随机高斯噪声进行扰动。在损失函数方面,使用了噪声监督对比损失函数,该损失函数旨在拉近同一类别的样本,推远不同类别的样本,同时对噪声具有鲁棒性。在网络结构方面,使用了ResNet作为特征提取器。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在DCASE 2020 Challenge Task 2数据集上取得了显著的性能提升。仅使用Log-Mel特征,就实现了94.64%的AUC,88.42%的pAUC和89.24%的mAUC。结合提出的TFgram特征,AUC指标进一步提升至95.71%,pAUC提升至90.23%,mAUC提升至91.23%。相较于现有方法,该方法在同类型机器上的误报率显著降低。

🎯 应用场景

该研究成果可应用于工业设备健康监测、智能安防、医疗诊断等领域。通过检测设备运行时的异常声音,可以提前预警故障,减少停机时间,提高生产效率。在安防领域,可以用于检测异常事件,如玻璃破碎、尖叫等。在医疗领域,可以辅助医生诊断疾病,如通过呼吸声检测呼吸道疾病。

📄 摘要(原文)

Unsupervised anomalous sound detection aims to detect unknown anomalous sounds by training a model using only normal audio data. Despite advancements in self-supervised methods, the issue of frequent false alarms when handling samples of the same type from different machines remains unresolved. This paper introduces a novel training technique called one-stage supervised contrastive learning (OS-SCL), which significantly addresses this problem by perturbing features in the embedding space and employing a one-stage noisy supervised contrastive learning approach. On the DCASE 2020 Challenge Task 2, it achieved 94.64\% AUC, 88.42\% pAUC, and 89.24\% mAUC using only Log-Mel features. Additionally, a time-frequency feature named TFgram is proposed, which is extracted from raw audio. This feature effectively captures critical information for anomalous sound detection, ultimately achieving 95.71\% AUC, 90.23\% pAUC, and 91.23\% mAUC. The source code is available at: \underline{www.github.com/huangswt/OS-SCL}.