Prototypical Contrastive Learning For Improved Few-Shot Audio Classification

📄 arXiv: 2509.10074v1 📥 PDF

作者: Christos Sgouropoulos, Christos Nikou, Stefanos Vlachos, Vasileios Theiou, Christos Foukanelis, Theodoros Giannakopoulos

分类: cs.SD, cs.LG

发布日期: 2025-09-12

备注: Accepted and Presented at IEEE International Workshop on Machine Learning for Signal Processing, Aug.\ 31-- Sep.\ 3, 2025, Istanbul, Turkey , 6 pages, 2 figures, 1 table

期刊: 2025 IEEE 35th International Workshop on Machine Learning for Signal Processing (MLSP)

DOI: 10.1109/MLSP62443.2025.11204215


💡 一句话要点

提出原型对比学习框架,提升少样本音频分类性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 少样本学习 音频分类 对比学习 原型学习 角度损失

📋 核心要点

  1. 现有少样本音频分类方法探索不足,缺乏有效利用有限标注数据的能力。
  2. 提出结合监督对比学习和原型学习的框架,利用角度损失优化嵌入空间。
  3. 在MetaAudio基准测试中,该方法在5-way, 5-shot设置下达到SOTA性能。

📝 摘要(中文)

本文研究了将监督对比损失集成到原型少样本训练中,以改进音频分类性能。针对大规模标注不切实际的场景,少样本学习提供了一种强大的模型训练范式。虽然图像领域已经进行了广泛的研究,但音频分类中的少样本学习仍相对未被充分探索。本文证明,与标准对比损失相比,角度损失可以进一步提高性能。该方法利用SpecAugment,然后使用自注意力机制将增强输入版本的各种信息封装到一个统一的嵌入中。在MetaAudio(一个包含五个数据集的基准,具有预定义的分割、标准化的预处理以及用于比较的全面少样本学习模型集)上评估了该方法。所提出的方法在5-way, 5-shot设置中实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决少样本音频分类问题,即在只有少量标注音频样本的情况下,如何训练出高性能的音频分类模型。现有方法在音频领域的探索不足,难以充分利用有限的标注数据,导致模型泛化能力受限。

核心思路:论文的核心思路是将监督对比学习融入到原型学习框架中。通过对比学习,模型能够学习到更具区分性的音频嵌入表示,从而提高少样本分类的准确性。角度损失的引入进一步优化了嵌入空间,使得同类样本更加紧凑,不同类样本更加分离。

技术框架:整体框架包括以下几个主要步骤:1) 使用SpecAugment对输入音频进行数据增强;2) 使用编码器(具体结构未知)提取音频特征;3) 使用自注意力机制融合增强后音频的特征,得到统一的嵌入表示;4) 计算原型,即每个类别的嵌入均值;5) 使用监督对比损失(包括角度损失)训练模型,优化嵌入空间。

关键创新:论文的关键创新在于将监督对比学习与原型学习相结合,并引入角度损失。SpecAugment和自注意力机制的结合,使得模型能够更好地处理音频数据的多样性和复杂性。角度损失的使用是提升性能的关键因素,它能够更有效地优化嵌入空间,提高类间区分度。

关键设计:论文的关键设计包括:1) 使用SpecAugment进行数据增强,提高模型的鲁棒性;2) 使用自注意力机制融合增强后音频的特征,捕捉音频中的关键信息;3) 使用角度损失作为对比损失的一部分,优化嵌入空间;4) 在MetaAudio基准上进行评估,保证了实验结果的可比性和可靠性。具体的网络结构、损失函数权重等参数设置未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该方法在MetaAudio基准测试中,5-way 5-shot 设置下取得了state-of-the-art的性能。具体提升幅度未知,但摘要中明确指出优于现有方法。角度损失的引入是性能提升的关键因素。实验结果表明,该方法在少样本音频分类任务中具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要快速适应新音频类别的场景,例如:智能家居中的新型声音事件检测、医疗诊断中的罕见疾病声音识别、以及生物多样性保护中的稀有动物声音监测。该方法降低了对大量标注数据的依赖,使得在资源受限的环境中也能有效部署音频分类系统。

📄 摘要(原文)

Few-shot learning has emerged as a powerful paradigm for training models with limited labeled data, addressing challenges in scenarios where large-scale annotation is impractical. While extensive research has been conducted in the image domain, few-shot learning in audio classification remains relatively underexplored. In this work, we investigate the effect of integrating supervised contrastive loss into prototypical few shot training for audio classification. In detail, we demonstrate that angular loss further improves the performance compared to the standard contrastive loss. Our method leverages SpecAugment followed by a self-attention mechanism to encapsulate diverse information of augmented input versions into one unified embedding. We evaluate our approach on MetaAudio, a benchmark including five datasets with predefined splits, standardized preprocessing, and a comprehensive set of few-shot learning models for comparison. The proposed approach achieves state-of-the-art performance in a 5-way, 5-shot setting.