GWQ: Gradient-Aware Weight Quantization for Large Language Models

📄 arXiv: 2411.00850v4 📥 PDF

作者: Yihua Shao, Yan Gu, Siyu Chen, Haiyang Liu, Zixian Zhu, Zijian Ling, Minxi Yan, Ziyang Yan, Chenyu Zhang, Michele Magno, Haotong Qin, Yan Wang, Jingcai Guo, Ling Shao, Hao Tang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-10-30 (更新: 2025-05-29)


💡 一句话要点

提出梯度感知权重量化(GWQ)方法,用于大语言模型低比特量化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 权重量化 梯度感知 模型压缩 低比特量化 异常值检测 推理加速

📋 核心要点

  1. 大语言模型参数量巨大,部署在资源受限设备上存在挑战,需要进行模型压缩。
  2. GWQ利用梯度信息定位权重中的异常值,并优先保留这些异常值的精度,其余权重进行低比特量化。
  3. 实验表明,GWQ在多种任务上优于其他量化方法,且仅需少量校准数据,并能加速推理、减少内存占用。

📝 摘要(中文)

大型语言模型(LLMs)在解决复杂的语言任务方面表现出令人印象深刻的性能。然而,其庞大的参数量给部署带来了巨大的挑战。因此,将LLMs压缩到低比特可以实现在资源受限的设备上部署。为了解决这个问题,我们提出了梯度感知权重量化(GWQ),这是一种用于低比特权重量化的方法,它利用梯度来定位异常值,只需要少量的校准数据来进行异常值检测。GWQ优先以FP16精度保留前1%的异常值,而其余的非异常值权重以低比特存储。我们在不同的任务上广泛评估了GWQ,包括语言建模、grounding检测、大规模多任务语言理解和视觉-语言问答。结果表明,通过GWQ量化的模型比其他量化方法表现更好。在量化过程中,GWQ只需要一个校准集就可以实现有效的量化。此外,与原始模型相比,GWQ实现了1.2倍的推理加速,并有效地减少了推理内存。

🔬 方法详解

问题定义:现有的大语言模型虽然性能强大,但参数量巨大,难以部署在资源受限的设备上。低比特量化是一种有效的模型压缩方法,但直接对所有权重进行量化会导致精度损失,尤其是一些对模型性能至关重要的异常值权重。现有方法难以有效识别并保护这些异常值,导致量化后的模型性能下降。

核心思路:GWQ的核心思路是利用梯度信息来识别对模型性能影响较大的异常值权重。梯度反映了权重对损失函数的影响程度,因此梯度较大的权重通常更重要。GWQ通过分析梯度分布,定位那些梯度值明显偏离平均水平的权重,并将它们视为异常值。

技术框架:GWQ的整体流程如下:1) 使用少量校准数据计算模型权重的梯度;2) 基于梯度分布识别异常值权重;3) 对非异常值权重进行低比特量化;4) 保留异常值权重为FP16精度。该方法主要包含梯度计算、异常值检测和权重量化三个阶段。

关键创新:GWQ的关键创新在于利用梯度信息进行异常值检测。与传统的基于统计信息的异常值检测方法相比,GWQ能够更准确地识别对模型性能影响较大的权重。此外,GWQ只需要少量校准数据即可实现有效的量化,降低了量化过程的计算成本。

关键设计:GWQ的关键设计包括:1) 使用校准数据集计算梯度,校准集的大小需要根据具体任务进行调整;2) 使用梯度值的统计分布(例如,设定阈值)来识别异常值,通常保留top 1%的异常值;3) 对非异常值权重使用标准的低比特量化方法,例如,均匀量化或非均匀量化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GWQ在多种任务上进行了评估,包括语言建模、grounding检测、大规模多任务语言理解和视觉-语言问答。实验结果表明,GWQ量化的模型比其他量化方法表现更好。例如,在某些任务上,GWQ能够以较低的比特数(例如,4比特)实现与原始模型相当甚至更好的性能。此外,GWQ还实现了1.2倍的推理加速,并有效地减少了推理内存。

🎯 应用场景

GWQ可应用于各种需要部署大语言模型的场景,尤其是在资源受限的边缘设备上,例如移动设备、嵌入式系统和物联网设备。通过GWQ,可以在保证模型性能的前提下,显著降低模型的存储空间和计算复杂度,从而实现大语言模型在这些设备上的高效部署。此外,该方法还可以应用于云计算平台,以降低大语言模型的推理成本。

📄 摘要(原文)

Large language models (LLMs) show impressive performance in solving complex language tasks. However, its large number of parameters presents significant challenges for the deployment. So, compressing LLMs to low bits can enable to deploy on resource-constrained devices. To address this problem, we propose gradient-aware weight quantization (GWQ), the first quantization approach for low-bit weight quantization that leverages gradients to localize outliers, requiring only a minimal amount of calibration data for outlier detection. GWQ retains the top 1\% outliers preferentially at FP16 precision, while the remaining non-outlier weights are stored in a low-bit. We widely evaluate GWQ on different task include language modeling, grounding detection, massive multitask language understanding and vision-language question and answering. Results show that models quantified by GWQ performs better than other quantization method. During quantization process, GWQ only need one calibration set to realize effective quant. Also, GWQ achieves 1.2x inference speedup in comparison to the original model and effectively reduces the inference memory.