Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

📄 arXiv: 2406.03344v1 📥 PDF

作者: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-06-05

备注: Code is available at https://github.com/mhamzaerol/Audio-Mamba-AuM


💡 一句话要点

提出Audio Mamba (AuM),一种用于音频表征学习的无自注意力双向状态空间模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 音频分类 状态空间模型 Mamba 无自注意力 音频表征学习 深度学习 音频频谱图

📋 核心要点

  1. 音频频谱Transformer(AST)在音频分类中表现出色,但自注意力机制导致计算复杂度呈二次方增长。
  2. Audio Mamba (AuM) 是一种完全基于状态空间模型(SSM)的音频分类模型,无需自注意力机制。
  3. 在多个音频数据集上的实验表明,AuM的性能与AST模型相当甚至更好,验证了SSM在音频领域的潜力。

📝 摘要(中文)

Transformer模型已迅速成为音频分类的首选,超越了基于CNN的方法。然而,音频频谱Transformer(AST)由于自注意力机制而呈现出二次方级别的计算复杂度。消除这种二次方复杂度的自注意力机制是一个很有吸引力的方向。最近,状态空间模型(SSM),如Mamba,已在语言和视觉任务中展示了潜力。本研究旨在探索自注意力是否是音频分类任务的必要组成部分。通过引入Audio Mamba(AuM),这是第一个无自注意力、完全基于SSM的音频分类模型,我们旨在解决这个问题。我们在包含六个不同基准的各种音频数据集上评估了AuM,结果表明,与已建立的AST模型相比,AuM取得了相当甚至更好的性能。

🔬 方法详解

问题定义:论文旨在解决音频分类任务中,基于Transformer的AST模型由于自注意力机制导致的计算复杂度过高的问题。现有AST模型的痛点在于,自注意力机制的计算量随着输入序列长度的增加呈平方级增长,限制了其在长音频序列上的应用。

核心思路:论文的核心思路是利用状态空间模型(SSM),特别是Mamba模型,来替代Transformer中的自注意力机制。Mamba模型具有线性复杂度,可以有效降低计算成本,同时保持甚至提升音频分类的性能。通过设计适用于音频数据的SSM架构,实现高效的音频表征学习。

技术框架:Audio Mamba (AuM) 的整体架构是一个纯粹的SSM网络,它直接处理音频频谱图特征。该架构主要包含以下几个阶段:1) 输入音频频谱图;2) 通过一系列Mamba块进行特征提取和表示学习;3) 使用全局平均池化层将特征图转换为固定长度的向量;4) 通过线性分类器进行音频类别预测。

关键创新:AuM最重要的技术创新点在于,它是第一个完全基于SSM的音频分类模型,无需任何自注意力机制。与AST模型相比,AuM避免了二次方级别的计算复杂度,从而提高了计算效率和可扩展性。此外,AuM针对音频数据特点进行了优化,例如使用双向Mamba块来捕捉音频信号的时序依赖关系。

关键设计:AuM的关键设计包括:1) 使用双向Mamba块,允许模型同时考虑过去和未来的音频信息;2) 采用全局平均池化层,将可变长度的特征图转换为固定长度的向量,以便进行分类;3) 使用交叉熵损失函数进行模型训练;4) 针对不同的音频数据集,调整Mamba块的数量和隐藏层维度等超参数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Audio Mamba (AuM) 在六个不同的音频数据集上进行了评估,包括ESC-50、UrbanSound8K等。实验结果表明,AuM的性能与已建立的AST模型相当甚至更好。例如,在某些数据集上,AuM的准确率超过了AST模型,同时显著降低了计算成本。这些结果验证了SSM在音频表征学习中的有效性。

🎯 应用场景

Audio Mamba (AuM) 在音频分类、语音识别、音乐分析等领域具有广泛的应用前景。其高效的计算性能使其能够处理大规模音频数据,并适用于资源受限的设备。未来,AuM有望应用于智能音箱、语音助手、音频监控等场景,提升音频处理的效率和准确性。

📄 摘要(原文)

Transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram Transformers (ASTs) exhibit quadratic scaling due to self-attention. The removal of this quadratic self-attention cost presents an appealing direction. Recently, state space models (SSMs), such as Mamba, have demonstrated potential in language and vision tasks in this regard. In this study, we explore whether reliance on self-attention is necessary for audio classification tasks. By introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based model for audio classification, we aim to address this question. We evaluate AuM on various audio datasets - comprising six different benchmarks - where it achieves comparable or better performance compared to well-established AST model.