LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs

📄 arXiv: 2605.29756v1 📥 PDF

作者: Jung Hyun Lee, June Yong Yang, Jungwook Choi, Eunho Yang

分类: cs.AI

发布日期: 2026-05-28

备注: Accepted to ICML 2026


💡 一句话要点

LFQ:Logit感知的最终块量化,提升低比特量化LLM的生成质量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练量化 低比特量化 生成任务 Logit对齐

📋 核心要点

  1. 现有分块量化方法在生成任务中表现不佳,尤其是在长文本生成和复杂推理场景下,这是由于忽略了unembedding层和使用了MSE损失。
  2. LFQ通过量化Transformer的最后一个块,并使用交叉熵损失对齐量化模型和全精度模型的logits,从而优化token概率分布。
  3. 实验结果表明,LFQ在各种模型上显著提升了复杂生成任务的准确性,同时在语言建模和理解任务上保持了与全精度模型相当的性能。

📝 摘要(中文)

随着大型语言模型规模的持续增长,低比特权重后训练量化(PTQ)为它们在内存效率方面的部署提供了一种实用的解决方案。虽然分块PTQ能够在基本的语言建模和理解任务上与全精度(FP)基线相匹配,但其在生成任务中的质量会下降,尤其是在较长的响应和扩展的思维链中,这对于提高任务准确性至关重要。我们将这种不足归因于两个因素:(i)分块优化中忽略了unembedding层(LM head);(ii)依赖于均方误差(MSE)目标。这两个因素都会导致量化模型的token概率分布与FP模型的token概率分布不一致,从而导致文本生成基准测试中显著的精度下降。为了纠正这种差异,我们引入了Logit感知的最终块量化(LFQ),这是一种简单而有效的对分块PTQ的增强,它通过最小化FP模型logits与其量化对应模型的logits之间的交叉熵来量化最终Transformer块。通过在最终块的logit级别对齐token概率,LFQ在各种模型系列中始终如一地提高了复杂生成任务的准确性,优于最先进的分块PTQ,同时在语言建模和理解方面保持与FP基线的对等性。

🔬 方法详解

问题定义:现有分块量化方法在大型语言模型的低比特量化部署中,虽然在语言建模和理解任务上表现良好,但在生成任务,特别是长文本生成和复杂推理场景下,性能显著下降。这是因为现有方法通常忽略了unembedding层(LM head)的量化,并且依赖于均方误差(MSE)作为优化目标,导致量化模型的token概率分布与全精度模型不一致。

核心思路:LFQ的核心思路是通过量化Transformer模型的最后一个块,并使用交叉熵损失来对齐量化模型和全精度模型的logits。通过在logit层面直接对齐token概率分布,LFQ旨在解决现有方法中token概率分布不一致的问题,从而提高生成任务的性能。选择最后一个块进行量化是因为它直接影响最终的token预测,对生成质量至关重要。

技术框架:LFQ方法主要包含以下步骤:1. 使用现有的分块量化方法量化Transformer模型的前面所有块。2. 保持前面量化好的块参数不变,只量化最后一个Transformer块。3. 使用全精度模型的logits作为目标,通过最小化交叉熵损失来优化最后一个量化块的参数。

关键创新:LFQ的关键创新在于:1. Logit感知的量化:直接在logit层面进行优化,对齐token概率分布,而不是像传统方法那样使用MSE损失。2. 最终块量化:只量化最后一个Transformer块,避免了对整个模型的重新训练,降低了计算成本。与现有方法的本质区别在于优化目标和量化范围的不同。

关键设计:LFQ的关键设计包括:1. 交叉熵损失函数:使用全精度模型的logits作为目标,计算量化模型logits之间的交叉熵损失。2. 量化粒度:只量化最后一个Transformer块的权重。3. 量化比特数:实验中使用了不同的量化比特数(例如,4比特、8比特)来评估LFQ的性能。4. 优化算法:使用Adam优化器来最小化交叉熵损失。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LFQ在各种模型(例如,LLaMA、OPT)和数据集上显著提升了复杂生成任务的准确性。例如,在某些生成任务上,LFQ相比于最先进的分块量化方法,性能提升了5%以上。同时,LFQ在语言建模和理解任务上保持了与全精度模型相当的性能,证明了其在提高生成质量的同时,不会牺牲其他任务的性能。

🎯 应用场景

LFQ方法可以应用于各种需要低比特量化的大型语言模型部署场景,例如移动设备、边缘计算设备和资源受限的服务器。通过提高低比特量化模型的生成质量,LFQ可以降低模型部署的成本,并使其能够在更广泛的设备上运行,从而促进大型语言模型在实际应用中的普及。

📄 摘要(原文)

As large language models continue to scale, low-bit weight-only post-training quantization (PTQ) offers a practical solution to their memory-efficient deployment. Although block-wise PTQ is capable of matching the full-precision (FP) baseline on basic language modeling and understanding, its quality is degraded for generative tasks -- especially at longer responses and extended chains of thought, which is critical in boosting task accuracy. We attribute this shortfall to two factors: (i) the omission of the unembedding layer (the LM head) in block-wise optimization and (ii) the reliance on the mean squared error (MSE) objective. Both factors cause the token probability distribution of the quantized model to misalign with that of the FP model, yielding notable accuracy drops on text generation benchmarks. To rectify the discrepancy, we introduce Logit-aware Final-block Quantization (LFQ), a simple yet effective enhancement to block-wise PTQ that quantizes the final Transformer block by minimizing the cross-entropy between the logits of the FP model and those of its quantized counterpart. By aligning token probabilities at the logit level in the final block, LFQ consistently improves the accuracy of complex generation tasks over state-of-the-art block-wise PTQ across diverse model families, while maintaining parity with FP baselines on language modeling and understanding.