Noise Supervised Contrastive Learning and Feature-Perturbed for Anomalous Sound Detection

作者: Shun Huang, Zhihua Fang, Liang He

分类: cs.SD, cs.CL

发布日期: 2025-09-17 (更新: 2025-09-18)

备注: Accepted ICASSP 2025

💡 一句话要点

提出噪声监督对比学习和特征扰动方法，提升异常声音检测在同类型机器上的准确率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 异常声音检测 对比学习 特征扰动 噪声监督 工业设备健康监测

📋 核心要点

现有自监督异常声音检测方法在处理来自不同机器的同类型样本时，容易产生较高的误报率，影响实际应用。
论文提出单阶段噪声监督对比学习（OS-SCL），通过特征扰动和噪声监督，增强模型对正常声音的泛化能力。
实验结果表明，该方法在DCASE 2020 Challenge Task 2数据集上取得了显著的性能提升，AUC指标最高达到95.71%。

📝 摘要（中文）

本文提出了一种新颖的训练技术，称为单阶段监督对比学习（OS-SCL），旨在解决无监督异常声音检测中，处理来自不同机器的同类型样本时频繁出现误报的问题。该方法通过在嵌入空间中扰动特征，并采用单阶段噪声监督对比学习方法，显著改善了这一问题。在DCASE 2020 Challenge Task 2上，仅使用Log-Mel特征就实现了94.64%的AUC，88.42%的pAUC和89.24%的mAUC。此外，还提出了一种名为TFgram的时频特征，该特征从原始音频中提取，有效地捕捉了异常声音检测的关键信息，最终实现了95.71%的AUC，90.23%的pAUC和91.23%的mAUC。

🔬 方法详解

问题定义：异常声音检测旨在仅使用正常音频数据训练模型，从而检测未知的异常声音。现有方法在处理来自不同机器的同类型样本时，容易出现误报，降低了检测的准确性和可靠性。这主要是因为模型难以区分同一类型机器的细微差异，将其误判为异常。

核心思路：论文的核心思路是通过监督对比学习，使模型学习到更鲁棒的正常声音表示。具体来说，通过在嵌入空间中对特征进行扰动，并引入噪声监督机制，迫使模型关注正常声音的本质特征，忽略机器间的细微差异，从而减少误报。

技术框架：整体框架包含特征提取、特征扰动、对比学习和异常评分四个主要阶段。首先，从原始音频中提取Log-Mel特征和TFgram特征。然后，对提取的特征进行扰动，生成多个不同的特征表示。接着，使用噪声监督对比学习方法，训练模型学习正常声音的鲁棒表示。最后，通过计算测试样本与正常样本之间的距离，进行异常评分。

关键创新：最重要的技术创新点在于提出的单阶段噪声监督对比学习（OS-SCL）方法。与传统的对比学习方法不同，OS-SCL在对比学习过程中引入了噪声监督，迫使模型学习对噪声具有鲁棒性的特征表示。此外，提出的TFgram特征能够有效地捕捉异常声音检测的关键信息。

关键设计：在特征扰动方面，采用了随机高斯噪声进行扰动。在损失函数方面，使用了噪声监督对比损失函数，该损失函数旨在拉近同一类别的样本，推远不同类别的样本，同时对噪声具有鲁棒性。在网络结构方面，使用了ResNet作为特征提取器。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在DCASE 2020 Challenge Task 2数据集上取得了显著的性能提升。仅使用Log-Mel特征，就实现了94.64%的AUC，88.42%的pAUC和89.24%的mAUC。结合提出的TFgram特征，AUC指标进一步提升至95.71%，pAUC提升至90.23%，mAUC提升至91.23%。相较于现有方法，该方法在同类型机器上的误报率显著降低。

🎯 应用场景

该研究成果可应用于工业设备健康监测、智能安防、医疗诊断等领域。通过检测设备运行时的异常声音，可以提前预警故障，减少停机时间，提高生产效率。在安防领域，可以用于检测异常事件，如玻璃破碎、尖叫等。在医疗领域，可以辅助医生诊断疾病，如通过呼吸声检测呼吸道疾病。

📄 摘要（原文）

Unsupervised anomalous sound detection aims to detect unknown anomalous sounds by training a model using only normal audio data. Despite advancements in self-supervised methods, the issue of frequent false alarms when handling samples of the same type from different machines remains unresolved. This paper introduces a novel training technique called one-stage supervised contrastive learning (OS-SCL), which significantly addresses this problem by perturbing features in the embedding space and employing a one-stage noisy supervised contrastive learning approach. On the DCASE 2020 Challenge Task 2, it achieved 94.64\% AUC, 88.42\% pAUC, and 89.24\% mAUC using only Log-Mel features. Additionally, a time-frequency feature named TFgram is proposed, which is extracted from raw audio. This feature effectively captures critical information for anomalous sound detection, ultimately achieving 95.71\% AUC, 90.23\% pAUC, and 91.23\% mAUC. The source code is available at: \underline{www.github.com/huangswt/OS-SCL}.

Noise Supervised Contrastive Learning and Feature-Perturbed for Anomalous Sound Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理