MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration
作者: Jinguang Wang, Jingyu Wang, Haifeng Sun, Tingting Yang, Zirui Zhuang, Wanyi Ning, Yuexi Yin, Qi Qi, Jianxin Liao
分类: cs.LG
发布日期: 2025-03-07
💡 一句话要点
MergeQuant:通过通道校准实现大语言模型精确的4比特静态量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化 静态量化 模型压缩 推理加速
📋 核心要点
- 现有大语言模型量化方法依赖动态校准,但长序列推理中重复量化/反量化开销巨大。
- MergeQuant提出通道级静态量化框架,通过量化步长迁移消除量化开销,提升效率。
- 实验表明,MergeQuant在精度损失极小的情况下,显著加速了Llama-2模型的推理速度。
📝 摘要(中文)
量化已被广泛应用于压缩和加速大型语言模型(LLMs)的推理。现有方法侧重于探索per-token动态校准,以确保4比特量化下的推理加速和模型精度。然而,在长序列的自回归生成推理中,重复动态量化和反量化步骤的开销变得相当昂贵。本文提出了MergeQuant,一个精确而高效的per-channel静态量化框架。MergeQuant通过量化步长迁移(QSM)方法,将per-channel量化步骤与相应的缩放和线性映射集成,从而消除了矩阵乘法之前和之后的量化开销。此外,考虑到不同通道范围之间的显著差异,我们提出了维度重构和自适应剪裁,以解决量化比例因子的非均匀性,并将通道变化重新分配到后续模块,以平衡QSM下的参数分布。在W4A4的静态量化设置下,MergeQuant将Llama-2-70B模型上零样本任务的精度差距与FP16基线相比降低到1.3个点。在Llama-2-7B模型上,与FP16基线相比,MergeQuant在解码中实现了高达1.77倍的加速,在端到端中实现了高达2.06倍的加速。
🔬 方法详解
问题定义:现有的大语言模型量化方法,特别是那些采用动态量化的方法,在长序列推理时会产生显著的量化和反量化开销,这限制了推理速度的提升。这些方法需要在每个token生成时进行动态校准,导致计算冗余。因此,需要一种高效且准确的静态量化方法来解决这个问题。
核心思路:MergeQuant的核心思路是通过将量化步骤与模型中的线性变换融合,从而消除量化和反量化的显式操作。具体来说,它通过量化步长迁移(QSM)技术,将量化操作“迁移”到矩阵乘法中,避免了在每次矩阵乘法前后进行量化和反量化。这种方法旨在减少计算开销,同时保持模型精度。
技术框架:MergeQuant框架主要包含以下几个关键步骤:1) Per-channel 量化:对模型的权重进行通道级别的量化。2) 量化步长迁移 (QSM):将量化操作与线性变换融合。3) 维度重构:重新组织通道维度,以优化量化效果。4) 自适应剪裁:根据通道的统计特性,动态调整量化范围。整个流程旨在最小化量化误差,同时消除量化开销。
关键创新:MergeQuant的关键创新在于量化步长迁移(QSM)技术,它将量化操作集成到现有的线性层中,避免了显式的量化和反量化步骤。此外,维度重构和自适应剪裁机制能够更好地适应不同通道的特性,从而提高量化精度。与传统的静态量化方法相比,MergeQuant能够更有效地平衡量化精度和推理速度。
关键设计:MergeQuant的关键设计包括:1) 通道级量化:选择通道级量化是因为它可以在精度和效率之间取得较好的平衡。2) QSM的具体实现:通过数学变换,将量化比例因子融入到线性层的权重中。3) 维度重构策略:根据通道的方差等统计信息,重新排列通道的顺序,以减少量化误差。4) 自适应剪裁阈值:基于通道数据的分布,动态调整剪裁阈值,以避免信息损失。
🖼️ 关键图片
📊 实验亮点
MergeQuant在Llama-2-70B模型上,W4A4静态量化设置下,相比FP16基线,零样本任务的精度差距仅为1.3个点。在Llama-2-7B模型上,解码速度提升高达1.77倍,端到端速度提升高达2.06倍。这些结果表明MergeQuant在保持较高精度的同时,显著提升了推理速度。
🎯 应用场景
MergeQuant适用于各种需要高效推理的大语言模型应用场景,例如移动设备上的本地部署、边缘计算设备上的实时对话系统、以及对延迟敏感的云端服务。该方法能够显著降低计算成本和内存占用,使得大语言模型能够在资源受限的环境中运行,从而扩展了其应用范围,并加速了AI技术的普及。
📄 摘要(原文)
Quantization has been widely used to compress and accelerate inference of large language models (LLMs). Existing methods focus on exploring the per-token dynamic calibration to ensure both inference acceleration and model accuracy under 4-bit quantization. However, in autoregressive generation inference of long sequences, the overhead of repeated dynamic quantization and dequantization steps becomes considerably expensive. In this work, we propose MergeQuant, an accurate and efficient per-channel static quantization framework. MergeQuant integrates the per-channel quantization steps with the corresponding scalings and linear mappings through a Quantization Step Migration (QSM) method, thereby eliminating the quantization overheads before and after matrix multiplication. Furthermore, in view of the significant differences between the different channel ranges, we propose dimensional reconstruction and adaptive clipping to address the non-uniformity of quantization scale factors and redistribute the channel variations to the subsequent modules to balance the parameter distribution under QSM. Within the static quantization setting of W4A4, MergeQuant reduces the accuracy gap on zero-shot tasks compared to FP16 baseline to 1.3 points on Llama-2-70B model. On Llama-2-7B model, MergeQuant achieves up to 1.77x speedup in decoding, and up to 2.06x speedup in end-to-end compared to FP16 baseline.