Rethinking Residual Errors in Compensation-based LLM Quantization

📄 arXiv: 2604.07955v1 📥 PDF

作者: Shuaiting Li, Juncan Deng, Kedong Xu, Rongtao Deng, Hong Gu, Minghan Jiang, Haibin Shen, Kejie Huang

分类: cs.LG

发布日期: 2026-04-09

备注: ICLR'26 camera ready

🔗 代码/项目: GITHUB


💡 一句话要点

重新审视量化残差,提升基于补偿的大语言模型量化性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型量化 权重补偿 残差误差 模型压缩 GPTQ GPTAQ 补偿感知误差

📋 核心要点

  1. 现有基于补偿的LLM量化方法在层内校准时,以补偿权重的输出为目标,而非原始全精度输出,导致次优。
  2. 论文核心思想是重新定义校准目标,将量化模型输出与原始全精度模型输出对齐,并考虑“补偿感知误差”。
  3. 实验表明,该方法与GPTQ和GPTAQ无缝集成,并在多种LLM和量化设置下显著提升了量化性能。

📝 摘要(中文)

本文重新审视了基于权重补偿的大语言模型(LLM)量化方法中的残差误差。这类方法通过迭代地应用量化和权重补偿来最小化输出误差,其中GPTQ是代表性工作,引入了关键技术使其适用于数十亿参数的LLM。GPTAQ通过引入非对称校准过程扩展了该方法,将量化层的输出与全精度模型对齐,并将残差误差纳入权重补偿框架。本文指出,现有方法存在次优的校准目标:在层内校准过程中,它们将量化输出与补偿权重的输出对齐,而非原始全精度模型的真实输出。因此,本文重新定义了目标,精确地将量化模型的输出与每一步中全精度模型的原始输出对齐。进一步揭示了残差误差不仅来自前一层的输出差异,还来自每层内补偿权重与原始权重之间的差异,称之为“补偿感知误差”。通过继承GPTAQ的神经元分解技术,可以有效地将这种误差纳入权重更新过程。在各种LLM和量化设置上的大量实验表明,本文提出的增强方法与GPTQ和GPTAQ无缝集成,显著提高了量化性能。

🔬 方法详解

问题定义:现有基于权重补偿的LLM量化方法,如GPTAQ,在量化过程中存在校准目标不明确的问题。具体来说,在对每一层进行量化时,它们试图使量化后的输出与经过补偿的权重计算出的输出对齐,而不是与原始全精度模型的输出对齐。这种次优的校准目标导致了量化误差的累积,限制了量化模型的性能。

核心思路:论文的核心思路是重新定义量化过程中的校准目标,使其与原始全精度模型的输出保持一致。同时,论文还指出,残差误差不仅来源于前一层的输出差异,还来源于当前层补偿权重与原始权重之间的差异,即“补偿感知误差”。通过同时考虑这两个误差来源,可以更精确地进行权重补偿,从而提高量化模型的性能。

技术框架:该方法继承了GPTQ和GPTAQ的整体框架,仍然采用迭代量化和权重补偿的策略。主要改进在于校准目标和残差误差的计算方式。具体流程如下:1) 对每一层进行量化;2) 计算量化后的输出与原始全精度模型输出之间的误差;3) 计算“补偿感知误差”,即补偿权重与原始权重之间的差异;4) 将这两个误差结合起来,更新权重,进行补偿。

关键创新:论文的关键创新在于以下两点:1) 重新定义了量化过程中的校准目标,使其与原始全精度模型的输出保持一致;2) 提出了“补偿感知误差”的概念,并将其纳入权重补偿的过程中。这两个创新点使得量化过程更加精确,从而提高了量化模型的性能。

关键设计:论文继承了GPTAQ的神经元分解技术,以便高效地计算和应用“补偿感知误差”。在具体实现上,论文修改了GPTAQ的损失函数,使其能够同时考虑量化误差和“补偿感知误差”。此外,论文还对权重更新的公式进行了调整,以便更好地利用这两个误差信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法与GPTQ和GPTAQ无缝集成,并在多种LLM(如LLaMA、OPT)和量化设置(如INT4)下显著提升了量化性能。具体提升幅度取决于模型和量化设置,但总体而言,该方法能够有效地降低量化误差,提高模型的准确率。

🎯 应用场景

该研究成果可广泛应用于大语言模型的压缩和加速,尤其是在资源受限的边缘设备上部署LLM。通过更有效的量化方法,可以在保证模型性能的前提下,显著降低模型的大小和计算复杂度,从而使得LLM能够在移动设备、嵌入式系统等平台上运行,为自然语言处理应用带来更广阔的应用前景。

📄 摘要(原文)

Methods based on weight compensation, which iteratively apply quantization and weight compensation to minimize the output error, have recently demonstrated remarkable success in quantizing Large Language Models (LLMs). The representative work, GPTQ, introduces several key techniques that make such iterative methods practical for LLMs with billions of parameters. GPTAQ extends this approach by introducing an asymmetric calibration process that aligns the output of each quantized layer with its full-precision counterpart, incorporating a residual error into the weight compensation framework. In this work, we revisit the formulation of the residual error. We identify a sub-optimal calibration objective in existing methods: during the intra-layer calibration process, they align the quantized output with the output from compensated weights, rather than the true output from the original full-precision model. Therefore, we redefine the objective to precisely align the quantized model's output with the original output of the full-precision model at each step. We then reveal that the residual error originates not only from the output difference of the preceding layer but also from the discrepancy between the compensated and original weights within each layer, which we name the 'compensation-aware error'. By inheriting the neuron decomposition technique from GPTAQ, we can efficiently incorporate this compensation-aware error into the weight update process. Extensive experiments on various LLMs and quantization settings demonstrate that our proposed enhancements integrate seamlessly with both GPTQ and GPTAQ, significantly improving their quantization performance. Our code is publicly available at https://github.com/list0830/ResComp.