OAC: Output-adaptive Calibration for Accurate Post-training Quantization

📄 arXiv: 2405.15025v2 📥 PDF

作者: Ali Edalati, Alireza Ghaffari, Mahsa Ghazvini Nejad, Lu Hou, Boxing Chen, Masoud Asgharian, Vahid Partovi Nia

分类: cs.LG, cs.CL

发布日期: 2024-05-23 (更新: 2025-05-05)

备注: 22 pages, 4 figures

期刊: Proceedings of the AAAI Conference on Artificial Intelligence 2025

DOI: 10.1609/aaai.v39i16.33807


💡 一句话要点

提出OAC:一种输出自适应校准方法,用于提升后训练量化低精度下的模型精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 低精度量化 模型压缩 大型语言模型 输出自适应校准

📋 核心要点

  1. 现有PTQ方法基于层级欧几里得损失构建量化误差,忽略了模型输出,导致低精度量化时精度下降。
  2. OAC通过引入输出自适应校准,基于输出交叉熵损失的失真来构建量化误差,从而优化量化过程。
  3. OAC在极低精度(2位和二值)量化下,显著优于SpQR和BiLLM等先进基线方法。

📝 摘要(中文)

大型语言模型(LLMs)的部署由于其快速增长的规模而面临巨大的计算成本。压缩LLMs可以减少其推理所需的内存占用、延迟和能量。后训练量化(PTQ)技术旨在压缩LLMs,同时避免昂贵的重新训练。大多数PTQ方法基于层级的欧几里得损失来构建量化误差,忽略了模型输出。然后,使用每一层的Hessian矩阵来校准每一层,以更新权重,从而最小化量化误差。Hessian矩阵还用于检测对量化最显著的权重。这种PTQ方法在低精度量化中容易出现精度下降。我们提出了输出自适应校准(OAC),将模型输出纳入校准过程。我们基于输出交叉熵损失的失真来构建量化误差。OAC在合理的假设下近似每一层的输出自适应Hessian矩阵,以降低计算复杂度。输出自适应Hessian矩阵用于更新权重矩阵并检测显著权重,以维持模型输出。我们提出的方法优于最先进的基线方法,如SpQR和BiLLM,尤其是在极低精度(2位和二值)量化下。

🔬 方法详解

问题定义:论文旨在解决后训练量化(PTQ)在极低精度(如2-bit和binary)量化时,由于忽略模型输出,导致精度显著下降的问题。现有的PTQ方法主要基于层级的欧几里得损失来构建量化误差,没有考虑量化对最终模型输出的影响,从而导致次优的量化结果。

核心思路:论文的核心思路是将模型输出纳入量化校准过程,通过最小化量化后的模型输出与原始模型输出之间的差异来优化量化参数。具体来说,论文基于输出交叉熵损失的失真来构建量化误差,从而使量化过程更加关注对模型输出影响较大的权重。

技术框架:OAC方法主要包含以下几个阶段:1) 前向传播:使用量化后的模型进行前向传播,计算输出交叉熵损失。2) 输出自适应Hessian近似:在合理的假设下,近似计算每一层的输出自适应Hessian矩阵。3) 权重更新:使用输出自适应Hessian矩阵来更新权重矩阵,以最小化量化误差。4) 显著权重检测:使用输出自适应Hessian矩阵来检测对模型输出影响最大的权重,并对其进行特殊处理,以进一步提高量化精度。

关键创新:论文最重要的技术创新点在于提出了输出自适应校准(OAC)的概念,将模型输出纳入量化校准过程。与现有方法相比,OAC方法能够更准确地评估量化误差,并更好地优化量化参数,从而在低精度量化下获得更高的模型精度。

关键设计:OAC的关键设计包括:1) 使用输出交叉熵损失的失真来构建量化误差。2) 提出了一种近似计算输出自适应Hessian矩阵的方法,以降低计算复杂度。3) 使用输出自适应Hessian矩阵来更新权重矩阵和检测显著权重。具体的Hessian近似方法和权重更新策略在论文中有详细描述,但此处未给出具体公式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OAC方法在极低精度(2位和二值)量化下,显著优于SpQR和BiLLM等先进基线方法。具体的性能提升数据在论文中给出,但此处未提供具体数值。该结果表明OAC方法能够有效提高低精度量化模型的精度,具有重要的实际应用价值。

🎯 应用场景

该研究成果可广泛应用于对计算资源和能耗有严格限制的场景,例如移动设备、嵌入式系统和边缘计算等。通过使用OAC方法,可以在不显著降低模型精度的前提下,大幅压缩大型语言模型,从而使其能够在资源受限的设备上高效运行,加速AI技术的普及。

📄 摘要(原文)

Deployment of Large Language Models (LLMs) has major computational costs, due to their rapidly expanding size. Compression of LLMs reduces the memory footprint, latency, and energy required for their inference. Post-training Quantization (PTQ) techniques have been developed to compress LLMs while avoiding expensive re-training. Most PTQ approaches formulate the quantization error based on a layer-wise Euclidean loss, ignoring the model output. Then, each layer is calibrated using its layer-wise Hessian to update the weights towards minimizing the quantization error. The Hessian is also used for detecting the most salient weights to quantization. Such PTQ approaches are prone to accuracy drop in low-precision quantization. We propose Output-adaptive Calibration (OAC) to incorporate the model output in the calibration process. We formulate the quantization error based on the distortion of the output cross-entropy loss. OAC approximates the output-adaptive Hessian for each layer under reasonable assumptions to reduce the computational complexity. The output-adaptive Hessians are used to update the weight matrices and detect the salient weights towards maintaining the model output. Our proposed method outperforms the state-of-the-art baselines such as SpQR and BiLLM, especially, at extreme low-precision (2-bit and binary) quantization.