TesseraQ: Ultra Low-Bit LLM Post-Training Quantization with Block Reconstruction

📄 arXiv: 2410.19103v1 📥 PDF

作者: Yuhang Li, Priyadarshini Panda

分类: cs.LG

发布日期: 2024-10-24


💡 一句话要点

TesseraQ:通过块重建实现超低比特LLM后训练量化,显著提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 超低比特量化 大型语言模型 块重建 渐进自适应舍入 模型压缩 LLM优化

📋 核心要点

  1. 现有LLM后训练量化方法在超低比特量化时性能显著下降,难以兼顾模型大小和精度。
  2. TesseraQ通过渐进自适应舍入和优化解量化比例参数,有效优化LLM的权重舍入,稳定重建过程。
  3. 实验表明,TesseraQ能显著提升现有PTQ算法(如AWQ)的性能,并在多种量化方案中表现优异。

📝 摘要(中文)

大型语言模型(LLMs)极大地推动了自然语言处理的发展,但也带来了巨大的内存和计算需求。后训练量化(PTQ)正成为减少LLM内存占用和提高推理吞吐量的主要方法。本文旨在通过优化权重舍入参数,并结合块重建技术(先前在视觉模型中广泛使用的方法),来突破LLM PTQ的上限。我们提出了TesseraQ,一种新的最先进的PTQ技术,可以将LLM的权重量化到超低比特。为了有效地优化LLM中的舍入并稳定重建过程,我们引入了渐进自适应舍入,该方法在重建过程中迭代地将软舍入变量转换为硬变量。此外,我们优化了解量化比例参数,以充分利用块重建技术。实验表明,TesseraQ可以与现有的基于缩放或裁剪的PTQ算法(如AWQ和OmniQuant)无缝集成,显著提高它们的性能,并建立新的技术水平。例如,与AWQ相比,TesseraQ在LLaMA-2-7B的2比特权重量化下,将wikitext2的困惑度从14.65提高到6.82,平均下游任务准确率从50.52提高到59.27。在包括W2A16、W3A16、W3A3和W4A4在内的一系列量化方案中,TesseraQ始终表现出卓越的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在超低比特后训练量化(PTQ)中遇到的性能下降问题。现有的PTQ方法,如AWQ和OmniQuant,在将LLM权重压缩到2-4比特时,精度会显著降低,限制了其在资源受限环境中的应用。

核心思路:论文的核心思路是通过块重建技术优化权重舍入参数,并引入渐进自适应舍入来稳定重建过程。通过迭代地将软舍入变量转换为硬变量,可以更有效地优化LLM中的舍入,从而提高量化模型的精度。同时,优化解量化比例参数,以充分利用块重建技术,进一步提升性能。

技术框架:TesseraQ可以无缝集成到现有的基于缩放或裁剪的PTQ算法中,例如AWQ和OmniQuant。其主要流程包括:1) 使用现有的PTQ算法进行初步量化;2) 使用块重建技术优化权重舍入参数,并采用渐进自适应舍入策略;3) 优化解量化比例参数;4) 对量化后的模型进行评估。

关键创新:TesseraQ的关键创新在于渐进自适应舍入策略和解量化比例参数的优化。渐进自适应舍入通过迭代地将软舍入变量转换为硬变量,避免了直接进行硬舍入可能导致的优化困难。解量化比例参数的优化则充分利用了块重建技术,进一步提升了量化模型的精度。与现有方法相比,TesseraQ能够更有效地优化LLM的权重舍入,从而在超低比特量化下实现更高的精度。

关键设计:渐进自适应舍入策略涉及一个温度参数,该参数控制软舍入变量向硬舍入变量的过渡速度。解量化比例参数的优化通常采用最小化重建误差的策略,例如最小化量化后的权重与原始权重之间的均方误差。具体的损失函数和优化算法的选择取决于所集成的PTQ算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TesseraQ在LLaMA-2-7B模型的2比特权重量化实验中,相较于AWQ,将wikitext2的困惑度从14.65降低到6.82,平均下游任务准确率从50.52%提升到59.27%。在W2A16、W3A16、W3A3和W4A4等多种量化方案中,TesseraQ均表现出优于现有方法的性能。

🎯 应用场景

TesseraQ技术可应用于资源受限的边缘设备,例如移动设备和嵌入式系统,从而实现LLM的低成本部署。该技术还可用于降低LLM的存储和传输成本,加速LLM在各个领域的应用,例如智能助手、机器翻译和文本生成。

📄 摘要(原文)

Large language models (LLMs) have revolutionized natural language processing, albeit at the cost of immense memory and computation requirements. Post-training quantization (PTQ) is becoming the de facto method to reduce the memory footprint and improve the inference throughput of LLMs. In this work, we aim to push the upper limit of LLM PTQ by optimizing the weight rounding parameters with the block reconstruction technique, a predominant method in previous vision models. We propose TesseraQ, a new state-of-the-art PTQ technique, to quantize the weights of LLMs to ultra-low bits. To effectively optimize the rounding in LLMs and stabilize the reconstruction process, we introduce progressive adaptive rounding. This approach iteratively transits the soft rounding variables to hard variables during the reconstruction process. Additionally, we optimize the dequantization scale parameters to fully leverage the block reconstruction technique. We demonstrate that TesseraQ can be seamlessly integrated with existing scaling or clipping-based PTQ algorithms such as AWQ and OmniQuant, significantly enhancing their performance and establishing a new state-of-the-art. For instance, when compared to AWQ, TesseraQ improves the wikitext2 perplexity from 14.65 to 6.82 and average downstream accuracy from 50.52 to 59.27 with 2-bit weight-only quantization of LLaMA-2-7B. Across a range of quantization schemes, including W2A16, W3A16, W3A3, and W4A4, TesseraQ consistently exhibits superior performance.