Coverage-Based Calibration for Post-Training Quantization via Weighted Set Cover over Outlier Channels
作者: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma
分类: cs.LG
发布日期: 2026-04-27
💡 一句话要点
提出COVERCAL,通过加权集合覆盖优化离群通道,提升后训练量化校准效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练量化 模型压缩 离群通道 集合覆盖 校准样本选择
📋 核心要点
- 现有后训练量化(PTQ)方法依赖于校准样本的选择,但未能有效激活模型中的离群通道,导致量化精度下降。
- 论文提出COVERCAL算法,将校准样本选择问题转化为加权集合覆盖问题,目标是最大化离群通道的加权覆盖率。
- 实验表明,COVERCAL在各种LLM模型和量化后端上,显著优于现有校准方法,尤其是在小样本校准预算下。
📝 摘要(中文)
后训练量化(PTQ)使用小规模校准集将大型语言模型压缩到低比特宽度,其质量严重依赖于样本的选择。我们发现了一种失效模式,即校准样本未能激活离群通道(具有异常大激活值的隐藏维度),导致量化器低估其动态范围,并产生主导层级损失的逐通道重建误差。基于此,我们认为PTQ校准质量更多地取决于加权离群通道覆盖率,而非通用样本代表性,并将校准选择形式化为离群通道上的加权集合覆盖问题。该目标是单调次模的,贪婪算法COVERCAL作用于预先计算的激活统计信息,选择过程无需GPU时间。我们进一步表明,权重选择在内部是一致的:在程式化的裁剪模型下,未命中的加权覆盖率限制了代理损失的上限,证明了加权覆盖目标是基于原则的,而非纯粹的经验。在LLaMA-2、LLaMA-3和Mistral上,在AWQ和GPTQ后端以及五个下游评估中,COVERCAL优于随机、最大困惑度、最大激活方差和分层基线,在小校准预算下增益最大。在INT4和128个样本下,COVERCAL比随机校准提高了1.2到1.5个MMLU点,并将困惑度降低了15到30%;在64个样本下,它匹配或超过了256个样本的随机校准。贡献不是一个新的PTQ后端,而是将校准选择形式化为加权离群覆盖,具有简单、高效的算法和基于代理的论证。
🔬 方法详解
问题定义:后训练量化(PTQ)旨在压缩大型语言模型,但其性能受校准数据集质量影响显著。现有方法未能充分考虑模型中存在的“离群通道”,这些通道具有异常大的激活值,在量化过程中容易产生较大误差,导致整体性能下降。现有校准方法,如随机选择或基于困惑度的方法,无法保证对这些离群通道的有效覆盖。
核心思路:论文的核心思想是将校准样本的选择问题转化为一个加权集合覆盖问题。每个校准样本可以覆盖一部分离群通道,而每个离群通道的重要性由其激活值大小决定(加权)。目标是选择一个最小的校准样本集合,使得尽可能多的重要离群通道被覆盖。这种方法的核心在于关注对量化精度影响最大的离群通道,而非简单地追求样本的代表性。
技术框架:COVERCAL算法主要包含以下几个步骤:1) 离群通道识别:通过分析模型在少量数据上的激活值,识别出具有异常大激活值的通道。2) 权重计算:根据离群通道的激活值大小,计算其权重,权重越大表示该通道越重要。3) 集合覆盖:将每个校准样本看作一个集合,包含其激活的离群通道。使用贪婪算法解决加权集合覆盖问题,选择能够覆盖最多未覆盖的、权重最高的离群通道的样本。4) 量化:使用选择的校准样本进行量化。
关键创新:论文的关键创新在于将PTQ校准问题形式化为加权集合覆盖问题,并提出了一种简单高效的贪婪算法COVERCAL来解决该问题。与现有方法相比,COVERCAL更加关注对量化精度影响最大的离群通道,并通过加权的方式区分不同通道的重要性。此外,论文还从理论上证明了加权覆盖目标与量化损失之间的关系,为该方法的有效性提供了理论支撑。
关键设计:COVERCAL算法的关键设计包括:1) 离群通道的识别阈值:需要合理设置激活值的阈值,以区分离群通道和普通通道。2) 权重的计算方式:可以使用不同的函数将激活值映射为权重,例如线性函数或指数函数。3) 贪婪算法的实现细节:需要高效地计算每个样本能够覆盖的未覆盖的、权重最高的离群通道,并选择最优样本。
📊 实验亮点
COVERCAL算法在LLaMA-2、LLaMA-3和Mistral等模型上,使用AWQ和GPTQ后端进行了评估。在INT4量化和128个校准样本下,COVERCAL比随机校准提高了1.2到1.5个MMLU点,并将困惑度降低了15到30%。在仅使用64个样本的情况下,COVERCAL的性能甚至可以匹配或超过使用256个样本的随机校准。
🎯 应用场景
该研究成果可广泛应用于大型语言模型的压缩和部署,尤其是在资源受限的边缘设备上。通过更有效地选择校准样本,可以显著提高量化模型的精度,从而在保证性能的同时降低模型大小和计算复杂度。这对于加速LLM在移动设备、嵌入式系统等场景的应用具有重要意义。
📄 摘要(原文)
Post-Training Quantization (PTQ) compresses large language models to low bit-widths using a small calibration set, and its quality depends strongly on which samples are chosen. We identify a failure mode in which calibration samples fail to activate outlier channels, hidden dimensions with unusually large activations, causing the quantizer to underestimate their dynamic range and producing per-channel reconstruction errors that dominate layer-wise loss. Motivated by this observation, we argue that PTQ calibration quality is governed more by weighted outlier-channel coverage than by generic sample representativeness, and formulate calibration selection as a weighted set cover problem over outlier channels. The objective is monotone submodular, and the greedy algorithm, COVERCAL, operates on pre-computed activation statistics and requires no GPU time at selection. We further show that the weight choice is internally consistent: under a stylized clipping model, missed weighted coverage upper-bounds surrogate loss, justifying the weighted coverage objective as principled rather than purely empirical. Across LLaMA-2, LLaMA-3, and Mistral, under AWQ and GPTQ backends and five downstream evaluations, COVERCAL improves over random, max-perplexity, max-activation-variance, and stratified baselines, with the largest gains at small calibration budgets. At INT4 with 128 samples, COVERCAL improves MMLU by 1.2 to 1.5 points over random calibration and reduces perplexity degradation by 15 to 30\%; with 64 samples, it matches or exceeds random calibration at 256. The contribution is not a new PTQ backend but a formulation of calibration selection as weighted outlier coverage, with a simple, efficient algorithm and a surrogate-based justification.