Saliency-Aware Regularized Quantization Calibration for Large Language Models

📄 arXiv: 2605.05693v2 📥 PDF

作者: Yanlong Zhao, Xiaoyuan Cheng, Huihang Liu, Baihua He, Xinyu Zhang, Harrison Bo Hua Zhu, Wenlong Chen, Li Zeng, Zhuo Sun

分类: cs.AI, cs.LG

发布日期: 2026-05-07 (更新: 2026-05-08)


💡 一句话要点

提出显著性感知正则化量化校准(SARQC),提升大语言模型量化后性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大语言模型 正则化 显著性感知 模型压缩

📋 核心要点

  1. 现有PTQ方法依赖重构误差最小化确定量化参数,但易受校准数据影响,导致泛化性能下降。
  2. 论文提出RQC框架,通过正则化项约束量化权重偏离原始权重,提高量化模型的泛化能力。
  3. SARQC在RQC基础上引入显著性感知正则化,并集成到现有PTQ流程中,实验表明能有效提升LLM量化性能。

📝 摘要(中文)

后训练量化(PTQ)是部署具有内存和延迟约束的大型语言模型(LLMs)的有效方法。现有的PTQ方法主要通过最小化预定的校准数据集上的分层重构误差来确定量化参数,通常通过缩放搜索或基于Gram的方法进行优化。然而,从泛化风险的角度来看,仅基于有限或不具代表性的校准数据的经验重构误差的现有PTQ校准目标可能会使量化权重偏离原始浮点权重,从而可能降低下游性能。为了解决这个问题,我们提出了正则化量化校准(RQC),这是一个统一的框架,它用显式控制权重偏离原始权重的正则化项来增强标准PTQ目标。我们进一步推广这个框架,加入了显著性感知正则化项,形成了显著性感知正则化量化校准(SARQC)。所提出的正则化鼓励量化权重在校准期间保持接近原始权重,从而在推理时提高泛化能力。SARQC无缝集成到现有的PTQ流程中,并在统一的公式下增强了基于尺度搜索和基于Gram的方法。在密集和混合专家LLM上的大量实验表明,在不引入额外推理开销的情况下,困惑度和零样本准确率都得到了持续的提高。

🔬 方法详解

问题定义:现有的后训练量化(PTQ)方法,尤其是依赖于重构误差最小化的方法,在校准数据集的选择上非常敏感。如果校准数据集不能很好地代表真实数据分布,那么量化后的模型性能会显著下降,导致泛化能力不足。此外,单纯最小化重构误差可能导致量化权重偏离原始权重,从而影响下游任务的性能。

核心思路:论文的核心思路是通过引入正则化项来约束量化权重的范围,使其尽可能地接近原始的浮点权重。这样做的目的是为了减少量化过程对模型原始性能的损害,提高量化模型的泛化能力。同时,论文进一步提出了显著性感知的正则化方法,即对重要的权重施加更大的约束,而对不重要的权重施加较小的约束,从而更好地保留模型的关键信息。

技术框架:SARQC方法是在现有的PTQ框架上进行改进的,可以无缝集成到现有的PTQ流程中。其主要流程包括:1) 使用原始浮点模型和校准数据集;2) 定义一个包含重构误差和正则化项的损失函数;3) 使用优化算法(如Adam)来最小化这个损失函数,从而得到量化后的权重;4) 使用量化后的模型进行推理。其中,正则化项的设计是SARQC的关键,它显式地控制了量化权重与原始权重之间的偏差。

关键创新:SARQC最重要的创新点在于提出了正则化量化校准,尤其是显著性感知正则化量化校准。与传统的PTQ方法只关注重构误差不同,SARQC同时考虑了量化权重与原始权重之间的差异,并通过正则化项来约束这种差异。显著性感知正则化的引入,进一步提升了模型性能,因为它能够更好地保留模型中的关键信息。

关键设计:SARQC的关键设计包括:1) 正则化项的选择:论文尝试了不同的正则化项,包括L2正则化和显著性感知正则化。2) 显著性度量:论文使用梯度信息来衡量权重的重要性,梯度越大,权重越重要。3) 损失函数的设计:损失函数由重构误差和正则化项两部分组成,需要平衡两者的权重。4) 优化算法的选择:论文使用Adam优化器来最小化损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SARQC在多个LLM模型(包括dense和MoE模型)上都取得了显著的性能提升。例如,在perplexity和zero-shot accuracy上均有提升,且未引入额外的推理开销。SARQC能够与现有的基于scale-search和Gram矩阵的PTQ方法结合,进一步提升性能,表明其具有良好的通用性和扩展性。

🎯 应用场景

SARQC方法适用于各种大语言模型在资源受限设备上的部署,例如移动设备、边缘计算设备等。通过量化降低模型大小和计算复杂度,可以有效减少内存占用和推理延迟,使得这些设备也能运行复杂的LLM模型。该研究对于推动LLM在实际应用场景中的落地具有重要意义。

📄 摘要(原文)

Post-training quantization (PTQ) is an effective approach for deploying large language models (LLMs) under memory and latency constraints. Most existing PTQ methods determine quantization parameters by minimizing a layer-wise reconstruction error on a predetermined calibration dataset, typically optimized via either scale search or Gram-based methods. However, from the perspective of generalization risk, existing PTQ calibration objectives based solely on empirical reconstruction error over limited or unrepresentative calibration data may move the quantized weights away from the original floating-point weights, potentially degrading downstream performance. To address this issue, we propose \emph{Regularized Quantization Calibration} (RQC), a unified framework that augments standard PTQ objectives with a regularizer that explicitly controls weight deviation from the original weights. We further generalize this framework to incorporate a saliency-aware regularizer, resulting in \emph{Saliency-Aware Regularized Quantization Calibration} (SARQC). The proposed regularization encourages quantized weights to remain close to the original weights during calibration, leading to improved generalization at inference time. SARQC integrates seamlessly into existing PTQ pipelines and enhances both scale-search-based and Gram-based methods under a unified formulation. Extensive experiments on dense and Mixture-of-Experts LLMs demonstrate consistent improvements in perplexity and zero-shot accuracy, without introducing additional inference overhead.