AudioMAE++: learning better masked audio representations with SwiGLU FFNs

📄 arXiv: 2507.10464v1 📥 PDF

作者: Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-07-14

备注: TO APPEAR AT IEEE MLSP 2025


💡 一句话要点

AudioMAE++:利用SwiGLU FFNs学习更优的音频掩码自编码表示

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 音频表示学习 掩码自编码器 自监督学习 Transformer 门控线性单元 音频分类 语音识别

📋 核心要点

  1. 现有的音频MAE方法大多采用原始Transformer块,未能充分利用Transformer架构的最新进展。
  2. AudioMAE++通过引入macaron风格Transformer块和门控线性单元,改进了音频掩码自编码器。
  3. 实验表明,AudioMAE++在多个下游任务上超越现有MAE方法,并展现出良好的模型扩展性。

📝 摘要(中文)

本文提出AudioMAE++,一种改进的音频掩码自编码器,它引入了两个增强特性:带有门控线性单元的macaron风格Transformer块。该模型在音频频谱图块上进行训练,旨在学习自监督音频表示。在AudioSet数据集上进行预训练后,所提出的AudioMAE++模型在10个不同的下游任务上优于现有的基于MAE的方法,在音频分类和基于语音的基准测试中表现出卓越的性能。此外,AudioMAE++模型还表现出良好的扩展特性,在参数量高达标准MAE基线的4倍时,性能仍然优于后者。

🔬 方法详解

问题定义:现有的音频掩码自编码器(MAE)方法通常使用标准的Transformer构建块,而忽略了Transformer架构领域的新进展。这限制了模型学习更有效音频表示的能力,尤其是在处理复杂的音频数据时。因此,需要一种能够充分利用最新Transformer架构优势的音频MAE模型,以提高音频表示的质量和下游任务的性能。

核心思路:AudioMAE++的核心思路是将Transformer架构的最新进展(即macaron风格Transformer块和门控线性单元)融入到音频MAE模型中。Macaron风格的Transformer块通过在自注意力层之前添加前馈网络(FFN),可以更好地混合特征,而门控线性单元(GLU)则可以动态地控制信息的流动,从而提高模型的表达能力。

技术框架:AudioMAE++的整体框架仍然遵循标准的MAE流程:首先,将音频数据转换为频谱图,然后将频谱图分割成patch。接着,随机mask掉一部分patch,并将剩余的patch输入到编码器中。编码器的输出经过解码器重建被mask掉的patch。编码器和解码器都由改进的Transformer块组成,即macaron风格的Transformer块和带有GLU的FFN。

关键创新:AudioMAE++的关键创新在于将macaron风格的Transformer块和门控线性单元引入到音频MAE模型中。这两种技术都是Transformer架构的最新进展,可以显著提高模型的表达能力和学习效率。与传统的MAE模型相比,AudioMAE++能够学习到更鲁棒、更具判别性的音频表示。

关键设计:AudioMAE++的关键设计包括:1) 使用macaron风格的Transformer块,即在自注意力层之前添加一个FFN层;2) 在FFN层中使用门控线性单元(SwiGLU),以动态控制信息的流动;3) 采用标准的MAE训练策略,包括随机mask patch和重建mask掉的patch。具体的参数设置(如mask比例、patch大小、网络层数等)需要根据具体的实验进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

AudioMAE++在AudioSet数据集上预训练后,在10个不同的下游任务上优于现有的基于MAE的方法。例如,在音频分类任务中,AudioMAE++的性能比基线模型提高了显著的百分比。此外,AudioMAE++还表现出良好的扩展特性,即使在参数量增加到基线模型的4倍时,性能仍然优于基线模型。

🎯 应用场景

AudioMAE++在音频分类、语音识别、音乐理解等领域具有广泛的应用前景。它可以用于构建更准确的音频分类器、更鲁棒的语音识别系统,以及更智能的音乐推荐系统。此外,AudioMAE++还可以应用于音频内容分析、音频事件检测等领域,具有重要的实际价值和潜在的商业机会。

📄 摘要(原文)

Masked Autoencoders (MAEs) trained on audio spectrogram patches have emerged as a prominent approach for learning self-supervised audio representations. While several recent papers have evaluated key aspects of training MAEs on audio data, the majority of these approaches still leverage vanilla transformer building blocks, whereas the transformer community has seen steady integration of newer architectural advancements. In this work, we propose AudioMAE++, a revamped audio masked autoencoder with two such enhancements, namely macaron-style transformer blocks with gated linear units. When pretrained on the AudioSet dataset, the proposed AudioMAE++ models outperform existing MAE based approaches on 10 diverse downstream tasks, demonstrating excellent performance on audio classification and speech-based benchmarks. The proposed AudioMAE++ models also demonstrate excellent scaling characteristics, outperforming directly comparable standard MAE baselines with up to 4x more parameters.