DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization

📄 arXiv: 2412.20185v2 📥 PDF

作者: Yeonhong Park, Jake Hyun, Hojoon Kim, Jae W. Lee

分类: cs.LG

发布日期: 2024-12-28 (更新: 2025-06-24)

备注: OSDI 2025


💡 一句话要点

DecDEC:一种通过动态残差校正提升低比特LLM量化性能的系统方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低比特量化 大语言模型 残差校正 动态量化 显著通道

📋 核心要点

  1. 低比特量化虽然能有效降低LLM的资源需求,但会显著降低模型精度,尤其是在3/4比特等极端量化条件下。
  2. DecDEC的核心思想是动态地识别并校正量化误差较大的显著通道,通过在CPU存储残差矩阵,按需补偿量化损失。
  3. 实验表明,DecDEC能显著降低低比特LLM的困惑度,例如3比特Llama-3-8B-Instruct模型,同时对GPU内存和推理速度影响很小。

📝 摘要(中文)

本文提出了一种名为DecDEC的推理方案,旨在提高低比特大型语言模型(LLM)的质量,同时保留量化的关键优势:GPU内存节省和延迟降低。DecDEC将全精度和量化权重之间的残差矩阵存储在CPU中,并动态地为一小部分权重(即由激活异常值标记的显著通道)提取残差。提取的残差有助于纠正这些通道中的量化误差。显著通道在每个解码步骤中通过分析输入激活动态识别,从而能够适应激活分布的动态特性,从而最大限度地提高误差补偿的有效性。实验表明,DecDEC可以增强最先进的量化方法。例如,DecDEC将3比特Llama-3-8B-Instruct模型的困惑度从10.15降低到9.12,优于其3.5比特版本,同时仅增加不到0.0003%的GPU内存使用量,并在NVIDIA RTX 4050 Mobile上仅产生1.7%的推理减速。

🔬 方法详解

问题定义:论文旨在解决低比特量化(如3比特、4比特)LLM推理时,模型精度显著下降的问题。现有方法在极端量化条件下,模型性能损失严重,难以在资源受限的设备上部署高性能LLM。

核心思路:DecDEC的核心思路是利用残差校正来弥补量化带来的精度损失。它并非对所有权重都进行校正,而是动态地识别并校正那些对模型性能影响最大的“显著通道”。通过这种选择性的校正,可以在精度提升和资源开销之间取得平衡。

技术框架:DecDEC的整体框架包含以下几个主要步骤:1) 权重量化:使用现有的量化方法将全精度权重转换为低比特权重。2) 残差计算与存储:计算全精度权重和量化权重之间的残差,并将残差矩阵存储在CPU中。3) 显著通道识别:在每个解码步骤中,分析输入激活,动态地识别显著通道(即激活值异常高的通道)。4) 残差提取与校正:从CPU中提取显著通道对应的残差,并将其加到量化权重上,以校正量化误差。5) 推理:使用校正后的权重进行LLM推理。

关键创新:DecDEC的关键创新在于动态显著通道识别和选择性残差校正。传统的量化方法通常采用静态的校正策略,无法适应激活分布的动态变化。DecDEC通过在每个解码步骤中分析输入激活,能够更准确地识别需要校正的通道,从而更有效地利用有限的计算资源。此外,将残差存储在CPU中,避免了增加GPU内存的负担。

关键设计:显著通道的识别是DecDEC的关键设计之一。论文采用基于激活值异常程度的指标来判断通道的重要性。具体的实现细节(如激活值的统计方法、阈值的选择等)在论文中可能有所描述,但摘要中未明确指出。残差的存储格式和提取方式也会影响性能,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DecDEC在Llama-3-8B-Instruct模型上的实验结果表明,它可以将3比特量化模型的困惑度从10.15降低到9.12,超过了3.5比特量化模型的性能。同时,DecDEC仅增加了不到0.0003%的GPU内存使用量,并在NVIDIA RTX 4050 Mobile上仅造成1.7%的推理速度下降。这些结果表明DecDEC在精度和效率之间取得了良好的平衡。

🎯 应用场景

DecDEC技术可广泛应用于资源受限的设备上部署高性能LLM,例如移动设备、嵌入式系统和边缘服务器。该技术能够降低LLM的内存占用和计算需求,使其能够在这些设备上运行,从而实现更智能的本地化应用,例如离线翻译、智能助手和个性化推荐。

📄 摘要(原文)

Quantization of Large Language Models (LLMs) has recently gained popularity, particularly for on-device settings with limited hardware resources. While efficient, quantization inevitably degrades model quality, especially in aggressive low-bit settings such as 3-bit and 4-bit precision. In this paper, we propose DecDEC, an inference scheme that improves the quality of low-bit LLMs while preserving the key benefits of quantization: GPU memory savings and latency reduction. DecDEC stores the residual matrix -- the difference between full-precision and quantized weights -- in CPU, and dynamically fetches the residuals for only a small portion of the weights. This portion corresponds to the salient channels, marked by activation outliers, with the fetched residuals helping to correct quantization errors in these channels. Salient channels are identified dynamically at each decoding step by analyzing the input activations -- this enables adaptation to the dynamic nature of activation distribution, thus maximizing the effectiveness of error compensation. We demonstrate the effectiveness of DecDEC by augmenting state-of-the-art quantization methods. For example, DecDEC reduces the perplexity of a 3-bit Llama-3-8B-Instruct model from 10.15 to 9.12 -- outperforming its 3.5-bit counterpart -- while adding less than 0.0003\% to GPU memory usage and incurring only a 1.7\% inference slowdown on NVIDIA RTX 4050 Mobile.