StableQuant: Layer Adaptive Post-Training Quantization for Speech Foundation Models

📄 arXiv: 2504.14915v1 📥 PDF

作者: Yeona Hong, Hyewon Han, Woo-jin Chung, Hong-Goo Kang

分类: eess.AS, cs.AI

发布日期: 2025-04-21

备注: Accepted at ICASSP 2025


💡 一句话要点

提出StableQuant,一种层自适应的语音基础模型后训练量化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音基础模型 后训练量化 模型压缩 自动语音识别 层自适应 量化范围 HuBERT wav2vec2.0

📋 核心要点

  1. 现有PTQ方法在压缩语音基础模型(SFM)时效果不佳,因为SFM的网络架构与LLM存在差异。
  2. StableQuant通过自适应地确定每一层的量化范围,从而优化量化性能,且不受网络架构类型的影响。
  3. 实验表明,StableQuant在HuBERT和wav2vec2.0上实现了优于传统PTQ方法的性能,且模型大小减少到四分之一,推理速度提高一倍。

📝 摘要(中文)

本文提出了一种新颖的自适应后训练量化(PTQ)算法StableQuant,用于广泛使用的语音基础模型(SFM)。虽然PTQ已成功应用于压缩大型语言模型(LLM),因为它能够绕过额外的微调,但直接将这些技术应用于SFM可能无法产生最佳结果,因为SFM使用不同的网络架构进行特征提取。StableQuant展示了最佳的量化性能,不受网络架构类型的影响,因为它通过分析尺度分布和整体性能来适应性地确定每一层的量化范围。我们在两个SFM(HuBERT和wav2vec2.0)上评估了我们的算法,用于自动语音识别(ASR)任务,并获得了优于传统PTQ方法的性能。StableQuant成功地将SFM模型的大小减少到四分之一,并将推理速度提高了一倍,同时将字错误率(WER)性能下降限制在8位量化下的0.3%以内。

🔬 方法详解

问题定义:论文旨在解决语音基础模型(SFM)的压缩问题,具体来说,是利用后训练量化(PTQ)方法压缩SFM,同时尽可能减少性能损失。现有PTQ方法在大型语言模型(LLM)上表现良好,但直接应用于SFM时效果不佳,主要原因是SFM的网络架构与LLM不同,导致量化范围的选择不当,性能下降明显。

核心思路:StableQuant的核心思路是针对SFM的每一层,自适应地确定最佳量化范围。它不依赖于预设的全局量化参数,而是通过分析每一层的尺度分布和整体性能,动态调整量化参数,从而实现更好的量化效果。这种层自适应的方法能够更好地适应SFM不同层的特性,减少量化误差。

技术框架:StableQuant的整体框架可以概括为以下几个步骤:1. 对SFM的每一层进行前向传播,收集每一层的激活值和权重分布信息。2. 基于收集到的信息,分析每一层的尺度分布,并计算出候选的量化范围。3. 使用一小部分校准数据,对不同的量化范围进行评估,选择性能最佳的量化范围。4. 使用选定的量化范围对模型进行量化。

关键创新:StableQuant的关键创新在于其层自适应的量化范围确定方法。与传统的PTQ方法不同,StableQuant不使用固定的全局量化参数,而是根据每一层的特性动态调整量化参数。这种方法能够更好地适应SFM不同层的特性,减少量化误差,从而提高量化后的模型性能。

关键设计:StableQuant的关键设计包括:1. 尺度分布分析:通过分析每一层的激活值和权重分布,确定候选的量化范围。常用的方法包括计算最大值、最小值、均值、方差等统计量。2. 性能评估:使用一小部分校准数据,对不同的量化范围进行评估,选择性能最佳的量化范围。常用的评估指标包括字错误率(WER)等。3. 量化策略:可以使用不同的量化策略,如对称量化、非对称量化等。论文中具体使用的量化策略未知。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

StableQuant在HuBERT和wav2vec2.0上进行了评估,结果表明,在8位量化下,模型大小减少到四分之一,推理速度提高一倍,同时字错误率(WER)性能下降限制在0.3%以内。相比于传统的PTQ方法,StableQuant在性能上取得了显著提升。

🎯 应用场景

StableQuant可应用于各种需要部署语音基础模型的场景,例如移动设备上的语音助手、智能家居设备、车载语音交互系统等。通过减小模型大小和提高推理速度,StableQuant可以降低部署成本,提高用户体验,并促进语音技术在资源受限设备上的应用。

📄 摘要(原文)

In this paper, we propose StableQuant, a novel adaptive post-training quantization (PTQ) algorithm for widely used speech foundation models (SFMs). While PTQ has been successfully employed for compressing large language models (LLMs) due to its ability to bypass additional fine-tuning, directly applying these techniques to SFMs may not yield optimal results, as SFMs utilize distinct network architecture for feature extraction. StableQuant demonstrates optimal quantization performance regardless of the network architecture type, as it adaptively determines the quantization range for each layer by analyzing both the scale distributions and overall performance. We evaluate our algorithm on two SFMs, HuBERT and wav2vec2.0, for an automatic speech recognition (ASR) task, and achieve superior performance compared to traditional PTQ methods. StableQuant successfully reduces the sizes of SFM models to a quarter and doubles the inference speed while limiting the word error rate (WER) performance drop to less than 0.3% with 8-bit quantization.