CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning

📄 arXiv: 2410.11062v2 📥 PDF

作者: Sjoerd Groot, Qinyu Chen, Jan C. van Gemert, Chang Gao

分类: cs.SD, cs.AI, cs.CV, eess.AS

发布日期: 2024-10-14 (更新: 2025-02-10)

备注: This paper has been accepted to be presented at the 2025 International Symposium on Circuits and Systems (ISCAS)

期刊: 2025 IEEE International Symposium on Circuits and Systems (ISCAS)

DOI: 10.1109/ISCAS56072.2025.11043389

🔗 代码/项目: GITHUB


💡 一句话要点

CleanUMamba:一种用于语音降噪的紧凑型Mamba网络,采用通道剪枝实现高效降噪。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语音降噪 Mamba模型 U-Net 通道剪枝 实时处理 深度学习 音频处理

📋 核心要点

  1. 现有语音降噪方法通常计算复杂度高,难以在资源受限的设备上进行实时部署。
  2. CleanUMamba采用U-Net结构,并用Mamba状态空间模型替换自注意力机制和LSTM,降低计算复杂度。
  3. 实验表明,CleanUMamba在保证语音质量的前提下,显著降低了模型大小和计算量,实现了高效的实时语音降噪。

📝 摘要(中文)

本文提出了CleanUMamba,一种时域神经网络架构,专为实时因果音频降噪而设计,直接应用于原始波形。CleanUMamba利用U-Net编码器-解码器结构,并在瓶颈层中集成了Mamba状态空间模型。通过用Mamba替换传统的自注意力机制和LSTM,我们的架构在保持恒定内存占用的同时,提供了卓越的降噪性能,从而实现了流式操作。为了提高效率,我们应用了结构化通道剪枝,在不影响音频质量的前提下,实现了模型大小8倍的缩减。我们的模型在Interspeech 2020 Deep Noise Suppression挑战赛中表现出色。具体而言,CleanUMamba仅使用442K参数和468M MACs,就实现了2.42的PESQ得分和95.1%的STOI,在实时性能上与更大的模型相匹配或超越。

🔬 方法详解

问题定义:论文旨在解决实时语音降噪问题,现有方法如基于自注意力机制或LSTM的模型,计算复杂度高,参数量大,难以在资源受限的设备上实现实时部署。这些方法在处理长序列音频时,内存占用也会显著增加。

核心思路:论文的核心思路是用Mamba状态空间模型替换U-Net结构中的自注意力机制和LSTM。Mamba具有线性复杂度,能够有效处理长序列,并且内存占用恒定,适合流式处理。此外,通过结构化通道剪枝,进一步减小模型尺寸,提高计算效率。

技术框架:CleanUMamba采用U-Net编码器-解码器结构。编码器负责提取输入音频的特征,解码器负责从特征重建降噪后的音频。Mamba模块被集成在U-Net的瓶颈层,用于建模音频序列的时序关系。通道剪枝应用于整个网络,以减少参数量和计算量。

关键创新:关键创新在于将Mamba状态空间模型引入到语音降噪任务中,并结合U-Net结构和通道剪枝技术。Mamba模型能够高效地处理长序列音频,并且内存占用恒定,这与传统的自注意力机制和LSTM有本质区别。通道剪枝进一步提高了模型的效率,使其更适合在资源受限的设备上部署。

关键设计:论文采用了结构化的通道剪枝方法,即同时剪掉同一层中所有通道的对应部分,保证剪枝后的网络结构仍然是规则的,方便部署和加速。具体的剪枝比例是通过实验确定的,以在模型大小和性能之间取得平衡。损失函数采用常用的时域损失函数,如L1损失或L2损失,用于衡量降噪后的音频与干净音频之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CleanUMamba在Interspeech 2020 Deep Noise Suppression挑战赛中取得了显著成果。该模型仅使用442K参数和468M MACs,就实现了2.42的PESQ得分和95.1%的STOI,与参数量更大的模型相比,在实时性能上表现相当甚至更优。通过通道剪枝,模型大小缩减了8倍,而音频质量没有明显下降。

🎯 应用场景

CleanUMamba具有广泛的应用前景,包括移动设备上的实时语音通话降噪、智能助听器、语音助手等。该模型的高效性和低内存占用使其能够在资源受限的设备上运行,为用户提供更好的语音体验。未来,该技术还可以应用于其他音频处理任务,如语音增强、语音分离等。

📄 摘要(原文)

This paper presents CleanUMamba, a time-domain neural network architecture designed for real-time causal audio denoising directly applied to raw waveforms. CleanUMamba leverages a U-Net encoder-decoder structure, incorporating the Mamba state-space model in the bottleneck layer. By replacing conventional self-attention and LSTM mechanisms with Mamba, our architecture offers superior denoising performance while maintaining a constant memory footprint, enabling streaming operation. To enhance efficiency, we applied structured channel pruning, achieving an 8X reduction in model size without compromising audio quality. Our model demonstrates strong results in the Interspeech 2020 Deep Noise Suppression challenge. Specifically, CleanUMamba achieves a PESQ score of 2.42 and STOI of 95.1% with only 442K parameters and 468M MACs, matching or outperforming larger models in real-time performance. Code will be available at: https://github.com/lab-emi/CleanUMamba