Statistically-Lossless Quantization of Large Language Models
作者: Michael Helcig, Eldar Kurtic, Dan Alistarh
分类: cs.LG
发布日期: 2026-05-04
🔗 代码/项目: GITHUB
💡 一句话要点
提出SLQ,实现大语言模型在任务和分布上统计无损的量化压缩。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型量化 无损压缩 统计无损 非对称量化
📋 核心要点
- 现有大语言模型量化方法要么有损精度,要么无法加速推理,难以兼顾压缩效率和模型性能。
- 论文提出SLQ方法,通过非对称量化和宽位宽搜索,在任务和分布层面实现统计无损压缩。
- 实验表明,SLQ在低至3.3位时实现任务无损压缩,5-6位时实现分布无损压缩,并加速推理1.7-3.6倍。
📝 摘要(中文)
模型量化对于高效部署大型语言模型至关重要,但现有方法存在权衡:GPTQ和AWQ等方法实现了实际压缩,但有损;无损技术保持了保真度,但通常不加速推理。本文通过量化LLM的三种互补的无损概念,探索了统计无损压缩的中间地带。首先,任务无损压缩在自然采样方差内保持了zero-shot基准精度,并且在激进的位宽下仍然可以实现。其次,我们形式化了更严格的分布无损压缩概念,要求量化模型的下一个token分布与原始模型实际无法区分,并提出了预期接受率(EAR),即最佳耦合下的最大token一致性概率,作为一个直接可解释的保真度指标(例如,EAR >= 0.99表示99%的一致性)。第三,我们证明了一个gamma平方方差定律,表明对称量化相对于非对称量化将噪声方差膨胀了gamma平方倍,使得非对称性对于分布无损保真度是必要的,但对于任务级别的保持则不是。使用SLQ,一种具有非对称量化和宽位宽搜索的分层非均匀方法,我们实现了远低于每个参数4位的任务无损压缩(取决于模型,低至3.3位),平均每个参数5到6位的分布无损压缩,以及相对于具有优化内核的FP16,实现了1.7到3.6倍的推理加速。源代码可在https://github.com/IST-DASLab/SLQ获得。
🔬 方法详解
问题定义:现有的大语言模型量化方法,如GPTQ和AWQ,虽然能有效压缩模型,但会造成精度损失。而传统的无损压缩方法虽然能保持精度,但通常无法加速推理。因此,如何在保证模型性能的前提下,实现高效的模型压缩是一个关键问题。
核心思路:论文的核心思路是探索“统计无损”的量化压缩。这意味着量化后的模型在任务层面(如zero-shot benchmark)和分布层面(下一个token的预测分布)与原始模型保持统计意义上的一致。通过这种方式,可以在一定程度上容忍量化带来的微小误差,从而实现更高的压缩率。
技术框架:SLQ方法是一种分层非均匀量化方法,其主要流程包括:1) 对模型的每一层进行量化;2) 使用非对称量化方案,以减小量化误差;3) 通过宽位宽搜索,为每一层选择合适的量化位宽,以平衡压缩率和精度;4) 使用优化的内核进行推理加速。
关键创新:论文的关键创新在于提出了“统计无损”的量化概念,并将其分为“任务无损”和“分布无损”两个层面。此外,论文还提出了预期接受率(EAR)作为衡量分布无损性的指标,并证明了对称量化会放大噪声方差。
关键设计:SLQ的关键设计包括:1) 使用非对称量化,以减小量化误差;2) 使用宽位宽搜索,为每一层选择最佳的量化位宽;3) 提出了预期接受率(EAR)作为衡量分布无损性的指标,EAR定义为最佳耦合下的最大token一致性概率。EAR >= 0.99 表示 99% 的一致性。
🖼️ 关键图片
📊 实验亮点
SLQ方法在多个大语言模型上取得了显著的成果。在任务无损压缩方面,SLQ实现了低于每个参数4位的压缩率(最低可达3.3位)。在分布无损压缩方面,SLQ实现了平均每个参数5到6位的压缩率。同时,SLQ还实现了1.7到3.6倍的推理加速,相比于使用优化内核的FP16。
🎯 应用场景
该研究成果可应用于大语言模型在资源受限设备上的部署,例如移动设备、边缘计算设备等。通过实现高效的量化压缩,可以在保证模型性能的同时,降低存储空间和计算资源的需求,从而使得大语言模型能够更广泛地应用。
📄 摘要(原文)
Model quantization has become essential for efficient large language model deployment, yet existing approaches involve clear trade-offs: methods such as GPTQ and AWQ achieve practical compression but are lossy, while lossless techniques preserve fidelity but typically do not accelerate inference. This paper explores the middle ground of statistically-lossless compression through three complementary notions of losslessness for quantized LLMs. First, task-lossless compression preserves zero-shot benchmark accuracy within natural sampling variance and remains achievable at aggressive bitwidths. Second, we formalize the stricter notion of distribution-lossless compression, requiring the quantized model's next-token distribution to be practically indistinguishable from the original, and propose the Expected Acceptance Rate (EAR), the maximum token-agreement probability under optimal coupling, as a directly interpretable fidelity metric (for example, EAR >= 0.99 indicates 99% agreement). Third, we prove a gamma-squared variance law showing that symmetric quantization inflates noise variance by gamma squared relative to asymmetric quantization, making asymmetry necessary for distribution-lossless fidelity but not for task-level preservation. Using SLQ, a layer-wise non-uniform method with asymmetric quantization and wide bitwidth search, we achieve task-lossless compression at well below 4 bits per parameter (as low as 3.3 bits depending on the model), distribution-lossless compression at 5 to 6 bits per parameter on average, and inference speedups of 1.7 to 3.6x relative to FP16 with optimized kernels. Source code is available at https://github.com/IST-DASLab/SLQ.