Noise Supervised Contrastive Learning and Feature-Perturbed for Anomalous Sound Detection
作者: Shun Huang, Zhihua Fang, Liang He
分类: cs.SD, cs.CL
发布日期: 2025-09-17 (更新: 2025-09-18)
备注: Accepted ICASSP 2025
💡 一句话要点
提出噪声监督对比学习与特征扰动方法,提升异常声音检测精度并减少误报。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 异常声音检测 监督对比学习 特征扰动 噪声学习 时频分析
📋 核心要点
- 现有自监督异常声音检测方法在处理同类型但来自不同机器的样本时,容易出现较高的误报率。
- 论文提出单阶段监督对比学习(OS-SCL),通过特征扰动和噪声监督对比学习来解决上述问题。
- 实验结果表明,该方法在DCASE 2020数据集上取得了显著的性能提升,并提出了有效的时频特征TFgram。
📝 摘要(中文)
本文提出了一种用于异常声音检测的新型训练技术,称为单阶段监督对比学习(OS-SCL)。该方法通过在嵌入空间中扰动特征,并采用单阶段噪声监督对比学习方法,显著解决了处理来自不同机器的同类型样本时频繁误报的问题。在DCASE 2020 Challenge Task 2上,仅使用Log-Mel特征就达到了94.64%的AUC,88.42%的pAUC和89.24%的mAUC。此外,还提出了一种名为TFgram的时频特征,该特征从原始音频中提取,有效地捕捉了异常声音检测的关键信息,最终实现了95.71%的AUC,90.23%的pAUC和91.23%的mAUC。
🔬 方法详解
问题定义:异常声音检测旨在仅使用正常音频数据训练模型,从而检测未知的异常声音。现有方法,特别是自监督学习方法,在处理来自不同机器的同类型正常声音时,容易将它们误判为异常,导致较高的误报率。这是因为模型难以区分机器间的细微差异,将这些差异错误地学习为异常特征。
核心思路:论文的核心思路是通过监督对比学习,显式地告知模型哪些样本属于同一类别(正常),从而增强模型对正常声音类别内部差异的鲁棒性。同时,通过特征扰动,进一步增强模型的泛化能力,使其能够更好地适应不同机器产生的正常声音。噪声监督对比学习则允许在一定程度上容忍标签噪声,提高训练的稳定性。
技术框架:整体框架包含特征提取、特征扰动、对比学习三个主要阶段。首先,从音频数据中提取Log-Mel特征或TFgram特征。然后,对提取的特征进行扰动,生成多个略有不同的特征表示。最后,使用噪声监督对比学习损失函数,训练模型将同一类别的扰动特征拉近,同时将不同类别的特征推远。
关键创新:论文的关键创新在于将监督对比学习引入到异常声音检测任务中,并结合特征扰动和噪声监督学习。与传统的自监督方法相比,该方法能够更好地利用标签信息,学习到更具区分性的特征表示。单阶段训练方式简化了训练流程,提高了效率。
关键设计:论文的关键设计包括:1) 特征扰动策略,例如添加高斯噪声或进行数据增强;2) 噪声监督对比学习损失函数,例如使用InfoNCE损失的变体,并引入噪声容忍机制;3) TFgram特征的提取方式,通过分析原始音频的时频特性,捕捉异常声音的关键信息。具体的参数设置和网络结构在论文中有详细描述,例如对比学习的温度系数,以及特征扰动的强度。
📊 实验亮点
该方法在DCASE 2020 Challenge Task 2数据集上取得了显著的性能提升。仅使用Log-Mel特征,AUC达到了94.64%,pAUC达到了88.42%,mAUC达到了89.24%。通过引入提出的TFgram特征,AUC进一步提升至95.71%,pAUC提升至90.23%,mAUC提升至91.23%。这些结果表明,该方法能够有效地提高异常声音检测的精度。
🎯 应用场景
该研究成果可应用于工业设备健康监测、智能安防、医疗诊断等领域。例如,通过监测机器的运行声音,可以及时发现潜在的故障,避免生产事故。在安防领域,可以检测异常的声响,如玻璃破碎声、尖叫声等,提高安全预警能力。在医疗领域,可以辅助医生诊断呼吸道疾病等。
📄 摘要(原文)
Unsupervised anomalous sound detection aims to detect unknown anomalous sounds by training a model using only normal audio data. Despite advancements in self-supervised methods, the issue of frequent false alarms when handling samples of the same type from different machines remains unresolved. This paper introduces a novel training technique called one-stage supervised contrastive learning (OS-SCL), which significantly addresses this problem by perturbing features in the embedding space and employing a one-stage noisy supervised contrastive learning approach. On the DCASE 2020 Challenge Task 2, it achieved 94.64\% AUC, 88.42\% pAUC, and 89.24\% mAUC using only Log-Mel features. Additionally, a time-frequency feature named TFgram is proposed, which is extracted from raw audio. This feature effectively captures critical information for anomalous sound detection, ultimately achieving 95.71\% AUC, 90.23\% pAUC, and 91.23\% mAUC. The source code is available at: \underline{www.github.com/huangswt/OS-SCL}.