Effective and Efficient Mixed Precision Quantization of Speech Foundation Models
作者: Haoning Xu, Zhaoqing Li, Zengrui Jin, Huimeng Wang, Youjun Chen, Guinan Li, Mengzhe Geng, Shujie Hu, Jiajun Deng, Xunying Liu
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-01-07 (更新: 2025-01-11)
备注: To appear at IEEE ICASSP 2025
💡 一句话要点
提出混合精度量化方法,高效压缩语音基础模型并保持精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合精度量化 语音基础模型 模型压缩 wav2vec2.0 HuBERT 单阶段优化 语音识别
📋 核心要点
- 现有语音模型量化方法通常分阶段进行,精度学习和参数量化分离,效率较低。
- 论文提出单阶段混合精度量化方法,同时优化精度分配和模型参数,提升压缩效率。
- 实验表明,该方法在压缩率和压缩时间上优于传统方法,且保持了语音识别精度。
📝 摘要(中文)
本文提出了一种用于语音基础模型的混合精度量化方法,该方法将混合精度学习和量化模型参数估计紧密集成到一个模型压缩阶段中。在LibriSpeech数据集上对微调的wav2vec2.0-base和HuBERT-large模型进行的实验表明,与分别在分离和不相交的阶段执行精度学习和模型参数量化的统一精度和两阶段混合精度量化基线相比,所得到的混合精度量化模型将无损压缩率提高了高达1.7倍和1.9倍,同时相对于32位全精度模型没有产生统计学上的词错误率(WER)增加。与两阶段混合精度基线相比,wav2vec2.0-base和HuBERT-large模型的系统压缩时间最多减少了1.9倍和1.5倍,同时都产生了更低的WER。性能最佳的3.5位混合精度量化HuBERT-large模型产生的无损压缩率是32位全精度系统的8.6倍。
🔬 方法详解
问题定义:现有语音基础模型的量化方法通常采用两阶段策略,即先确定每一层的量化精度,然后再进行模型参数的量化。这种分离的策略导致精度学习和参数量化无法协同优化,压缩效率较低,且可能导致精度损失。
核心思路:论文的核心思路是将混合精度学习和量化模型参数估计集成到一个统一的优化框架中。通过联合优化精度分配和量化参数,可以更有效地压缩模型,同时保持模型的性能。这种方法避免了传统两阶段方法中精度学习和参数量化之间的信息割裂。
技术框架:该方法的核心是一个单阶段的混合精度量化流程。具体来说,模型在训练过程中同时学习每一层的最佳量化精度和量化后的模型参数。整个流程可以概括为:首先,初始化一个全精度模型;然后,在训练过程中,使用特定的损失函数来指导精度分配和参数量化;最后,得到一个混合精度量化的模型。
关键创新:该方法最重要的创新点在于将混合精度学习和量化参数估计集成到一个单阶段的优化过程中。与传统的两阶段方法相比,这种方法可以实现精度分配和参数量化的协同优化,从而提高压缩效率和模型性能。此外,单阶段的方法也降低了压缩过程的复杂度。
关键设计:论文中可能涉及的关键设计包括:1) 用于指导精度分配的损失函数,该损失函数需要平衡压缩率和模型精度;2) 量化函数的选择,例如均匀量化或非均匀量化;3) 混合精度策略,即如何确定每一层的量化精度范围;4) 训练过程中的优化算法,例如Adam或SGD。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在wav2vec2.0-base和HuBERT-large模型上,相比于传统两阶段方法,无损压缩率分别提升了1.7倍和1.9倍,同时压缩时间分别减少了1.9倍和1.5倍,且词错误率(WER)没有显著增加。最佳的3.5位混合精度量化HuBERT-large模型实现了8.6倍的无损压缩率。
🎯 应用场景
该研究成果可广泛应用于语音识别、语音合成等领域,尤其是在资源受限的设备上,如移动设备、嵌入式系统等。通过高效压缩语音模型,可以降低存储空间和计算资源的需求,从而实现更快的推理速度和更低的功耗。此外,该方法也有助于推动语音技术在边缘计算场景中的应用。
📄 摘要(原文)
This paper presents a novel mixed-precision quantization approach for speech foundation models that tightly integrates mixed-precision learning and quantized model parameter estimation into one single model compression stage. Experiments conducted on LibriSpeech dataset with fine-tuned wav2vec2.0-base and HuBERT-large models suggest the resulting mixed-precision quantized models increased the lossless compression ratio by factors up to 1.7x and 1.9x over the respective uniform-precision and two-stage mixed-precision quantized baselines that perform precision learning and model parameters quantization in separate and disjointed stages, while incurring no statistically word error rate (WER) increase over the 32-bit full-precision models. The system compression time of wav2vec2.0-base and HuBERT-large models is reduced by up to 1.9 and 1.5 times over the two-stage mixed-precision baselines, while both produce lower WERs. The best-performing 3.5-bit mixed-precision quantized HuBERT-large model produces a lossless compression ratio of 8.6x over the 32-bit full-precision system.