Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates

📄 arXiv: 2505.22608v1 📥 PDF

作者: Haoning Xu, Zhaoqing Li, Youjun Chen, Huimeng Wang, Guinan Li, Mengzhe Geng, Chengxi Deng, Xunying Liu

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-05-28

备注: Submitted to Interspeech 2025


💡 一句话要点

提出一种基于稀疏感知的自收缩门控机制,用于高效压缩语音基础模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 模型压缩 剪枝 自收缩门控 稀疏性 单阶段训练 语音基础模型

📋 核心要点

  1. 现有语音基础模型参数量巨大,部署和推理成本高昂,模型压缩是关键。
  2. 提出稀疏感知的自收缩门控机制,在训练过程中同步进行剪枝和参数更新,提高压缩效率。
  3. 实验表明,该方法在保证性能的同时,显著降低了模型参数量,并缩短了压缩时间。

📝 摘要(中文)

本文提出了一种新颖的语音基础模型压缩方法,该方法将模型剪枝和参数更新紧密集成到一个阶段中。高度紧凑的层级绑定自收缩门控,每个门控仅包含一个可学习的阈值,与未压缩模型联合训练,并用于细粒度的神经元级别剪枝。在LibriSpeech-100hr语料库上进行的实验表明,我们的方法分别将wav2vec2.0-base和HuBERT-large模型的参数数量减少了65%和60%,同时在test-clean数据集上没有引起统计上显著的词错误率(WER)增加。与先前发表的相同任务的方法相比,我们的方法不仅在4.26倍的可比模型压缩率下实现了7.05%的最低test-clean数据集WER,而且还以至少减少25%的模型压缩时间运行。

🔬 方法详解

问题定义:语音基础模型(例如wav2vec2.0和HuBERT)参数量巨大,导致部署和推理成本高昂。现有的模型压缩方法,如剪枝和量化,通常需要多个阶段,例如先训练一个完整的模型,然后再进行剪枝,最后进行微调,效率较低,且可能导致性能下降。因此,需要一种高效且有效的单阶段压缩方法,能够在保证性能的同时,显著降低模型参数量和压缩时间。

核心思路:本文的核心思路是在训练过程中,通过引入稀疏感知的自收缩门控机制,同步进行模型剪枝和参数更新。这种方法允许模型在训练的早期阶段就学习到哪些神经元是重要的,哪些是可以被剪枝的,从而避免了传统方法中先训练一个完整的模型再进行剪枝的低效过程。

技术框架:该方法的核心是引入了层级绑定的自收缩门控。整体流程如下:首先,将自收缩门控添加到模型的每一层。然后,在训练过程中,门控会根据神经元的激活值动态地调整其输出,从而实现对神经元的选择性激活。同时,模型参数也会进行更新,以适应剪枝后的结构。最终,通过设置一个阈值,将门控输出低于阈值的神经元进行剪枝。

关键创新:该方法最重要的技术创新点在于提出了一种稀疏感知的自收缩门控机制,该机制能够与模型训练过程紧密集成,实现单阶段的模型压缩。与传统的两阶段或多阶段压缩方法相比,该方法更加高效,并且能够更好地保持模型的性能。此外,层级绑定的设计减少了参数量,提高了训练效率。

关键设计:自收缩门控的设计是关键。每个门控包含一个可学习的阈值,该阈值决定了神经元是否被激活。损失函数的设计也至关重要,需要平衡模型性能和稀疏性。具体来说,损失函数通常包含两部分:一部分是传统的语音识别损失函数,另一部分是稀疏性损失函数,用于鼓励模型产生稀疏的结构。此外,学习率的设置也需要仔细调整,以确保模型能够稳定地收敛。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在LibriSpeech-100hr数据集上,将wav2vec2.0-base和HuBERT-large模型的参数数量分别减少了65%和60%,同时在test-clean数据集上没有引起统计上显著的WER增加。在4.26倍的模型压缩率下,实现了7.05%的最低test-clean数据集WER,并且压缩时间减少了至少25%。

🎯 应用场景

该研究成果可应用于各种语音识别和语音处理任务,尤其是在资源受限的场景下,例如移动设备、嵌入式系统和边缘计算。通过压缩语音基础模型,可以降低模型的存储空间和计算复杂度,从而实现更高效的语音识别和语音处理。

📄 摘要(原文)

This paper presents a novel approach for speech foundation models compression that tightly integrates model pruning and parameter update into a single stage. Highly compact layer-level tied self-pinching gates each containing only a single learnable threshold are jointly trained with uncompressed models and used in fine-grained neuron level pruning. Experiments conducted on the LibriSpeech-100hr corpus suggest that our approach reduces the number of parameters of wav2vec2.0-base and HuBERT-large models by 65% and 60% respectively, while incurring no statistically significant word error rate (WER) increase on the test-clean dataset. Compared to previously published methods on the same task, our approach not only achieves the lowest WER of 7.05% on the test-clean dataset under a comparable model compression ratio of 4.26x, but also operates with at least 25% less model compression time.