ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization
作者: Weibo Zhao, Yubin Shi, Xinyu Lyu, Wanchen Sui, Shen Li, Yong Li
分类: cs.LG, cs.AI
发布日期: 2024-11-12 (更新: 2024-12-12)
备注: Accepted at AAAI 2025
💡 一句话要点
ASER:通过激活平滑与误差重构实现大语言模型低比特量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化 低比特量化 误差重构 激活平滑 模型压缩 模型优化
📋 核心要点
- 低比特量化是压缩大语言模型的关键技术,但现有方法在极低比特下会造成显著的性能下降,难以保证模型精度。
- ASER算法通过误差重构和激活平滑两个关键步骤,补偿量化带来的误差,从而在低比特下保持模型性能。
- 实验结果表明,ASER算法在W4A8等低比特量化设置下,能够有效提升模型精度,并在多种LLM上表现出竞争力。
📝 摘要(中文)
量化是大语言模型(LLM)服务中的关键技术,但在实现有效的低比特量化方面面临重大挑战。有限的数值映射导致量化模型产生显著误差,进而导致性能下降。本文基于模型压缩目标的基本思想,深入研究了LLM在后训练量化过程中的逐层误差分布。随后,我们提出了ASER算法,该算法包括:(1)误差重构:通过使用白化SVD构建的LoRA风格矩阵对量化误差进行低秩补偿;(2)激活平滑:提取异常值以获得平滑的激活和更好的误差补偿。ASER能够将典型的LLM量化为低比特模型,尤其是在W4A8每通道设置中也能保持精度。实验结果表明,ASER在最先进的量化算法中具有竞争力,并显示出激活量化的潜力,且开销较小。
🔬 方法详解
问题定义:论文旨在解决大语言模型低比特量化过程中,由于数值映射的限制而产生的显著误差,进而导致模型性能严重下降的问题。现有的量化方法在极低比特(如4比特)下,难以有效控制量化误差,导致模型精度损失较大。
核心思路:论文的核心思路是通过误差重构和激活平滑两个步骤来补偿量化误差。误差重构利用低秩矩阵来近似量化误差,从而减少误差对模型的影响。激活平滑则通过提取和处理激活中的异常值,使得激活分布更加平滑,从而有利于误差补偿。
技术框架:ASER算法主要包含两个阶段:误差重构和激活平滑。首先,对量化后的模型进行误差分析,确定每一层的量化误差。然后,利用白化SVD构建LoRA风格的低秩矩阵,用于重构误差。接着,进行激活平滑,提取激活中的异常值,并对这些异常值进行处理,使得激活分布更加平滑。最后,将重构后的误差和处理后的激活应用于量化模型,从而提高模型精度。
关键创新:ASER算法的关键创新在于将误差重构和激活平滑相结合,从而更有效地补偿量化误差。传统的量化方法通常只关注权重的量化,而忽略了激活的影响。ASER算法同时考虑了权重和激活的量化误差,并通过误差重构和激活平滑来减少这些误差。此外,使用白化SVD构建LoRA风格的低秩矩阵,能够有效地近似量化误差,并且计算开销较小。
关键设计:在误差重构阶段,使用白化SVD来构建低秩矩阵,可以有效地减少矩阵的冗余信息,从而提高误差重构的效率。在激活平滑阶段,使用异常值提取算法来确定激活中的异常值,并对这些异常值进行处理,例如进行截断或缩放。具体的参数设置,如低秩矩阵的秩、异常值提取的阈值等,需要根据具体的模型和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ASER算法在多种大语言模型上都取得了显著的性能提升。例如,在W4A8量化设置下,ASER算法能够有效提升模型的精度,并且在某些情况下甚至可以超过原始模型的性能。与现有的量化算法相比,ASER算法具有更强的竞争力,并且开销较小,易于部署。
🎯 应用场景
ASER算法可应用于各种需要对大语言模型进行低比特量化的场景,例如移动设备、边缘计算设备等资源受限的平台。通过使用ASER算法,可以在保证模型精度的前提下,显著降低模型的存储空间和计算复杂度,从而使得大语言模型能够在这些平台上高效运行。此外,该算法还可以应用于模型压缩、模型加速等领域。
📄 摘要(原文)
Quantization stands as a pivotal technique for large language model (LLM) serving, yet it poses significant challenges particularly in achieving effective low-bit quantization. The limited numerical mapping makes the quantized model produce a non-trivial error, bringing out intolerable performance degration. This paper is anchored in the basic idea of model compression objectives, and delves into the layer-wise error distribution of LLMs during post-training quantization. Subsequently, we introduce ASER, an algorithm consisting of (1) Error Reconstruction: low-rank compensation for quantization error with LoRA-style matrices constructed by whitening SVD; (2) Activation Smoothing: outlier extraction to gain smooth activation and better error compensation. ASER is capable of quantizing typical LLMs to low-bit ones, particularly preserving accuracy even in W4A8 per-channel setup. Experimental results show that ASER is competitive among the state-of-the-art quantization algorithms, showing potential to activation quantization, with minor overhead.