SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model

作者: Siavash Shams, Sukru Samet Dindar, Xilin Jiang, Nima Mesgarani

分类: eess.AS, cs.LG

发布日期: 2024-05-20 (更新: 2025-02-04)

备注: Code at https://github.com/SiavashShams/ssamba

期刊: 2024 IEEE Spoken Language Technology Workshop (SLT), Macao, pp. 1053-1059

DOI: 10.1109/SLT61566.2024.10832304

💡 一句话要点

提出SSAMBA：基于Mamba的自监督音频表征学习模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 音频表征学习 自监督学习 状态空间模型 Mamba 音频分类 关键词检测 说话人识别

📋 核心要点

Transformer在音频表征学习中表现出色，但其计算和内存复杂度较高，限制了效率。
SSAMBA利用Mamba状态空间模型，避免了Transformer的复杂性，实现了更高效的音频表征学习。
实验表明，SSAMBA在速度和内存效率上优于SSAST，并在多个音频任务中取得了更好的性能。

📝 摘要（中文）

本文提出了一种名为自监督音频Mamba（SSAMBA）的新型音频表征学习模型，它是首个基于状态空间模型（SSM）且无注意力机制的自监督模型。SSAMBA利用双向Mamba有效捕捉复杂的音频模式。该模型采用自监督预训练框架，优化判别和生成目标，从而能够从大规模无标签数据集中学习鲁棒的音频表征。在音频分类、关键词检测和说话人识别等任务上的评估结果表明，SSAMBA在大多数任务中优于自监督音频频谱Transformer（SSAST）。值得注意的是，对于输入token大小为22k的微型模型，SSAMBA的批量推理速度比SSAST快约92.7%，内存效率高95.4%。这些效率提升以及卓越的性能，突显了SSAMBA架构创新的有效性，使其成为各种音频处理应用中引人注目的选择。

🔬 方法详解

问题定义：现有基于Transformer的音频表征学习方法，如SSAST，在处理长序列音频时面临计算复杂度和GPU内存消耗过大的问题，导致推理效率低下，难以部署到资源受限的设备上。

核心思路：利用Mamba状态空间模型（SSM）替代Transformer中的注意力机制，Mamba具有线性复杂度，能够显著降低计算和内存需求，从而提高音频表征学习的效率。同时，采用自监督学习方法，从大量无标签音频数据中学习通用的音频表征。

技术框架：SSAMBA的整体架构包括一个音频编码器（例如，频谱图提取器），一个双向Mamba编码器，以及一个自监督预训练框架。该框架同时优化判别目标（例如，对比学习）和生成目标（例如，掩码音频重建），以学习鲁棒的音频表征。预训练完成后，可以将SSAMBA应用于各种下游音频任务。

关键创新：SSAMBA的关键创新在于将Mamba状态空间模型引入到自监督音频表征学习中，这是首个基于SSM且无注意力机制的音频表征学习模型。与Transformer相比，Mamba具有线性复杂度，能够更有效地处理长序列音频。

关键设计：SSAMBA使用双向Mamba编码器来捕捉音频序列中的上下文信息。自监督预训练框架采用对比学习损失和掩码音频重建损失，以鼓励模型学习区分不同的音频样本，并重建被掩盖的音频片段。具体的参数设置（如Mamba层数、隐藏层大小等）需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SSAMBA在音频分类、关键词检测和说话人识别等任务中优于SSAST。对于输入token大小为22k的微型模型，SSAMBA的批量推理速度比SSAST快约92.7%，内存效率高95.4%。这些显著的效率提升证明了SSAMBA架构的有效性。

🎯 应用场景

SSAMBA在语音识别、音乐分析、环境声音检测等领域具有广泛的应用前景。其高效的计算和内存效率使其能够部署在移动设备、嵌入式系统等资源受限的平台上。未来，SSAMBA可以进一步扩展到多模态音频处理任务，例如结合视觉信息进行音视频分析。

📄 摘要（原文）

Transformers have revolutionized deep learning across various tasks, including audio representation learning, due to their powerful modeling capabilities. However, they often suffer from quadratic complexity in both GPU memory usage and computational inference time, affecting their efficiency. Recently, state space models (SSMs) like Mamba have emerged as a promising alternative, offering a more efficient approach by avoiding these complexities. Given these advantages, we explore the potential of SSM-based models in audio tasks. In this paper, we introduce Self-Supervised Audio Mamba (SSAMBA), the first self-supervised, attention-free, and SSM-based model for audio representation learning. SSAMBA leverages the bidirectional Mamba to capture complex audio patterns effectively. We incorporate a self-supervised pretraining framework that optimizes both discriminative and generative objectives, enabling the model to learn robust audio representations from large-scale, unlabeled datasets. We evaluated SSAMBA on various tasks such as audio classification, keyword spotting, and speaker identification. Our results demonstrate that SSAMBA outperforms the Self-Supervised Audio Spectrogram Transformer (SSAST) in most tasks. Notably, SSAMBA is approximately 92.7% faster in batch inference speed and 95.4% more memory-efficient than SSAST for the tiny model size with an input token size of 22k. These efficiency gains, combined with superior performance, underscore the effectiveness of SSAMBA's architectural innovation, making it a compelling choice for a wide range of audio processing applications.

SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理