ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning

📄 arXiv: 2507.02666v1 📥 PDF

作者: Junyu Wang, Tianrui Wang, Meng Ge, Longbiao Wang, Jianwu Dang

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-07-03

备注: Accepted at Interspeech2025


💡 一句话要点

提出ASDA:音频频谱差分注意力机制,提升自监督表征学习性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 音频表征学习 注意力机制 Transformer 差分注意力

📋 核心要点

  1. 现有Transformer注意力机制在音频自监督学习中存在无效注意力分配,降低模型区分能力。
  2. 提出差分注意力机制ASDA,通过双重softmax和差分系数,抑制无效注意力,提升表征质量。
  3. ASDA在音频分类、关键词识别和环境声音分类等任务上取得SOTA性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种用于音频自监督表征学习的音频频谱差分注意力(ASDA)机制。针对现有Transformer架构的注意力机制在音频处理中可能分配权重给无关信息,从而降低模型判别能力的问题,ASDA通过集成双重softmax操作和精心调整的差分系数,有效缓解了无效的注意力分配。实验结果表明,ASDA模型在多个基准测试中实现了最先进(SOTA)的性能,包括音频分类(AS-2M数据集上49.0% mAP,AS20K数据集上41.5% mAP)、关键词识别(SPC-2数据集上98.3%准确率)和环境声音分类(ESC-50数据集上96.1%准确率)。这些结果突显了ASDA在音频任务中的有效性,为更广泛的应用铺平了道路。

🔬 方法详解

问题定义:现有的基于Transformer的音频自监督表征学习方法,其标准注意力机制容易将一部分注意力权重分配给不相关的信息,这会损害模型学习到的表征的判别能力,从而影响下游任务的性能。因此,如何更有效地利用注意力机制,避免无效的注意力分配,是本文要解决的关键问题。

核心思路:本文的核心思路是引入差分注意力机制,通过增强有效信息的权重,抑制无效信息的权重,从而提高模型对音频特征的关注度。具体来说,通过双重softmax操作来突出重要特征,并使用可调节的差分系数来控制增强和抑制的程度。

技术框架:ASDA模型的整体框架仍然基于Transformer架构,但将标准的注意力机制替换为提出的差分注意力机制。模型的输入是音频频谱图,经过一系列Transformer层进行特征提取,最终得到音频的表征向量。该表征向量可以用于各种下游任务,如音频分类、关键词识别和环境声音分类。

关键创新:ASDA的关键创新在于提出的差分注意力机制。与标准注意力机制不同,ASDA使用双重softmax操作来计算注意力权重,这可以更有效地突出重要特征。此外,ASDA还引入了可调节的差分系数,用于控制增强和抑制的程度,从而更好地适应不同的音频任务。

关键设计:ASDA的关键设计包括:1) 使用双重softmax操作计算注意力权重,公式为:attention = softmax(softmax(Q * K^T) * V),其中Q、K、V分别是查询、键和值矩阵;2) 引入可调节的差分系数λ,用于控制增强和抑制的程度;3) 通过实验选择合适的λ值,以获得最佳性能。损失函数采用标准的交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ASDA模型在多个音频基准测试中取得了显著的性能提升。在AS-2M音频分类数据集上,ASDA的mAP达到了49.0%,在AS20K数据集上达到了41.5%。在SPC-2关键词识别数据集上,ASDA的准确率达到了98.3%。在ESC-50环境声音分类数据集上,ASDA的准确率达到了96.1%。这些结果表明,ASDA在各种音频任务中都优于现有的自监督学习方法。

🎯 应用场景

ASDA模型在音频分类、关键词识别、环境声音分类等领域具有广泛的应用前景。其高质量的音频表征能力可以提升语音助手、智能家居、安防监控等系统的性能。未来,ASDA可以进一步扩展到其他音频任务,如语音识别、音乐分析等,并与其他模态的信息进行融合,实现更强大的多模态理解能力。

📄 摘要(原文)

In recent advancements in audio self-supervised representation learning, the standard Transformer architecture has emerged as the predominant approach, yet its attention mechanism often allocates a portion of attention weights to irrelevant information, potentially impairing the model's discriminative ability. To address this, we introduce a differential attention mechanism, which effectively mitigates ineffective attention allocation through the integration of dual-softmax operations and appropriately tuned differential coefficients. Experimental results demonstrate that our ASDA model achieves state-of-the-art (SOTA) performance across multiple benchmarks, including audio classification (49.0% mAP on AS-2M, 41.5% mAP on AS20K), keyword spotting (98.3% accuracy on SPC-2), and environmental sound classification (96.1% accuracy on ESC-50). These results highlight ASDA's effectiveness in audio tasks, paving the way for broader applications.