First-Order Error Matters: Accurate Compensation for Quantized Large Language Models

📄 arXiv: 2507.11017v2 📥 PDF

作者: Xingyu Zheng, Haotong Qin, Yuye Li, Haoran Chu, Jiakai Wang, Jinyang Guo, Michele Magno, Xianglong Liu

分类: cs.LG, cs.AI, cs.CL, cs.CV

发布日期: 2025-07-15 (更新: 2025-11-14)

备注: Accepted by AAAI 2026. The code is available at https://github.com/Xingyu-Zheng/FOEM


💡 一句话要点

提出FOEM,通过显式补偿一阶梯度误差,显著提升量化大语言模型精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大语言模型 一阶梯度误差 量化补偿 模型压缩

📋 核心要点

  1. 现有基于二阶泰勒展开的量化补偿方法忽略了一阶梯度误差,导致量化精度下降。
  2. FOEM显式地结合一阶梯度项进行量化误差补偿,避免了高昂的Hessian矩阵计算。
  3. 实验表明,FOEM在多种模型和基准测试中均优于GPTQ,并可与SpinQuant等技术结合进一步提升性能。

📝 摘要(中文)

后训练量化(PTQ)是一种压缩大型语言模型(LLM)的有效方法,能显著降低内存访问和计算成本。现有的基于补偿的权重校准方法通常依赖于二阶泰勒展开来模拟量化误差,并假设一阶项在训练良好的全精度模型中可以忽略不计。然而,我们发现渐进补偿过程会在潜在权重及其全精度对应项之间引入累积的一阶偏差,这使得上述假设存在根本性缺陷。为了解决这个问题,我们提出了一种新的PTQ方法FOEM,它显式地结合了一阶梯度项来改善量化误差补偿。FOEM通过在量化前权重附近执行一阶泰勒展开来近似梯度。这产生了一个基于潜在权重和全精度权重之间的差异以及Hessian矩阵的近似。当代入理论解时,该公式消除了显式计算Hessian的需要,从而避免了基于反向传播的梯度方法的高计算成本和有限的泛化能力。这种设计仅引入了极少的额外计算开销。在各种模型和基准上的大量实验表明,FOEM始终优于经典的GPTQ方法。在3比特权重量化中,FOEM将Llama3-8B的困惑度降低了17.3%,并将GPTAQ实现的5-shot MMLU准确率从53.8%提高到56.1%。此外,FOEM可以与SpinQuant等先进技术无缝结合,在具有挑战性的W4A4KV4设置下提供额外的增益,并进一步缩小与全精度基线之间的性能差距,超过现有的最先进方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)后训练量化(PTQ)过程中,由于忽略一阶梯度误差而导致的量化精度损失问题。现有的基于补偿的权重校准方法,如GPTQ,通常使用二阶泰勒展开来近似量化误差,并假设一阶项可以忽略不计。然而,作者发现这种假设在实际中并不成立,因为量化过程会引入累积的一阶偏差,从而影响最终的量化效果。

核心思路:FOEM的核心思路是显式地考虑并补偿一阶梯度误差。具体来说,它通过在一阶泰勒展开中保留一阶梯度项,更准确地建模量化误差。通过这种方式,FOEM能够更好地校准量化后的权重,从而提高量化模型的精度。作者认为,显式地处理一阶梯度误差是提升量化性能的关键。

技术框架:FOEM的技术框架主要包含以下几个步骤:1. 对全精度模型进行初步量化。2. 使用一阶泰勒展开近似量化误差,其中包含一阶梯度项。3. 基于近似的量化误差,计算权重校准的更新量。4. 更新量化后的权重,完成补偿。该框架避免了直接计算Hessian矩阵,降低了计算复杂度。

关键创新:FOEM最重要的技术创新点在于显式地将一阶梯度项纳入量化误差补偿的考虑范围。与现有方法相比,FOEM不再忽略一阶梯度误差,而是通过一阶泰勒展开对其进行近似和补偿。这种方法能够更准确地建模量化过程中的误差,从而提高量化模型的精度。此外,FOEM避免了直接计算Hessian矩阵,降低了计算复杂度,使其更适用于大型语言模型的量化。

关键设计:FOEM的关键设计包括:1. 使用一阶泰勒展开近似梯度,避免了计算Hessian矩阵。2. 将近似的梯度信息融入到权重校准的更新公式中。3. 通过迭代的方式进行权重校准,逐步减小量化误差。具体参数设置方面,论文中可能涉及学习率、迭代次数等超参数,这些参数需要根据具体的模型和数据集进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

FOEM在Llama3-8B的3比特权重量化实验中,将困惑度降低了17.3%,并将5-shot MMLU准确率从GPTAQ的53.8%提高到56.1%。此外,FOEM与SpinQuant结合后,在W4A4KV4设置下进一步提升了性能,缩小了与全精度基线的差距,超过了现有最佳方法。这些结果表明FOEM在量化LLM方面具有显著优势。

🎯 应用场景

FOEM技术可广泛应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备等资源受限的平台。通过提高量化模型的精度,FOEM能够降低模型大小和计算成本,从而使得LLM能够在更多设备上运行,并提升用户体验。此外,该技术还有助于降低LLM的部署成本,加速其在各行各业的普及。

📄 摘要(原文)

Post-training quantization (PTQ) offers an efficient approach to compressing large language models (LLMs), significantly reducing memory access and computational costs. Existing compensation-based weight calibration methods often rely on a second-order Taylor expansion to model quantization error, under the assumption that the first-order term is negligible in well-trained full-precision models. However, we reveal that the progressive compensation process introduces accumulated first-order deviations between latent weights and their full-precision counterparts, making this assumption fundamentally flawed. To address this, we propose FOEM, a novel PTQ method that explicitly incorporates first-order gradient terms to improve quantization error compensation. FOEM approximates gradients by performing a first-order Taylor expansion around the pre-quantization weights. This yields an approximation based on the difference between latent and full-precision weights as well as the Hessian matrix. When substituted into the theoretical solution, the formulation eliminates the need to explicitly compute the Hessian, thereby avoiding the high computational cost and limited generalization of backpropagation-based gradient methods. This design introduces only minimal additional computational overhead. Extensive experiments across a wide range of models and benchmarks demonstrate that FOEM consistently outperforms the classical GPTQ method. In 3-bit weight-only quantization, FOEM reduces the perplexity of Llama3-8B by 17.3% and increases the 5-shot MMLU accuracy from 53.8% achieved by GPTAQ to 56.1%. Moreover, FOEM can be seamlessly combined with advanced techniques such as SpinQuant, delivering additional gains under the challenging W4A4KV4 setting and further narrowing the performance gap with full-precision baselines, surpassing existing state-of-the-art methods.