Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models

📄 arXiv: 2501.18154v1 📥 PDF

作者: Wanlong Liu, Yichen Xiao, Dingyi Zeng, Hongyang Zhao, Wenyu Chen, Malu Zhang

分类: cs.CL

发布日期: 2025-01-30

备注: ICASSP 2025


💡 一句话要点

提出MG-PTQ,利用图神经网络进行低比特大语言模型混合精度量化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练量化 低比特量化 图神经网络 混合精度量化

📋 核心要点

  1. 现有PTQ方法在低比特量化大语言模型时性能显著下降,无法有效平衡模型大小和精度。
  2. MG-PTQ利用图神经网络学习权重依赖关系,自适应地为不同权重分配量化比特数,优化量化策略。
  3. 实验表明,MG-PTQ在低比特量化任务中超越了现有SOTA方法GPTQ,为低比特量化性能设立新基准。

📝 摘要(中文)

后训练量化(PTQ)通过显著降低资源需求,对于在资源受限的环境中部署大型语言模型(LLM)至关重要。然而,由于量化权重与原始权重之间的显著差异,现有的PTQ策略在低于3比特的低比特位宽下表现不佳。为了提高低比特位宽下的量化性能,我们引入了一种混合精度图神经PTQ(MG-PTQ)方法,该方法采用图神经网络(GNN)模块来捕获权重之间的依赖关系并自适应地分配量化比特位宽。通过GNN模块的信息传播,我们的方法更有效地捕获目标权重之间的依赖关系,从而更准确地评估权重重要性并优化量化策略的分配。在WikiText2和C4数据集上的大量实验表明,我们的MG-PTQ方法优于先前的最先进的PTQ方法GPTQ,为低比特条件下的量化性能设定了新的基准。

🔬 方法详解

问题定义:论文旨在解决低比特量化(<3 bits)下,现有后训练量化(PTQ)方法在大语言模型上的性能瓶颈问题。现有方法由于量化误差过大,导致模型精度显著下降,无法满足资源受限场景下的部署需求。

核心思路:论文的核心思路是利用图神经网络(GNN)建模权重之间的依赖关系,并根据这些依赖关系自适应地分配量化比特宽度。通过更精细的量化策略,降低整体量化误差,从而提升低比特量化模型的精度。

技术框架:MG-PTQ方法主要包含以下几个阶段:1. 构建权重依赖图:将模型的权重表示为图的节点,节点之间的边表示权重之间的依赖关系(例如,同一层内的权重,或者相邻层之间的权重)。2. GNN信息传播:利用GNN在图上进行信息传播,学习每个权重的表示,该表示包含了其邻居节点的信息,从而反映了权重的重要性。3. 混合精度量化:根据GNN学习到的权重表示,自适应地为每个权重分配量化比特宽度。重要性高的权重分配更高的比特宽度,反之则分配更低的比特宽度。

关键创新:MG-PTQ的关键创新在于引入了GNN来建模权重之间的依赖关系,并利用这些依赖关系进行混合精度量化。与传统的固定精度量化方法相比,MG-PTQ能够更有效地利用有限的比特资源,从而提升量化模型的精度。与之前的PTQ方法相比,MG-PTQ能够更准确地评估权重的重要性,从而优化量化策略的分配。

关键设计:GNN的具体结构(例如,使用的GNN层数、激活函数等)是一个关键设计。此外,如何构建权重依赖图,以及如何根据GNN学习到的权重表示来分配量化比特宽度也是重要的设计选择。论文中可能使用了特定的损失函数来指导GNN的学习,例如,最小化量化误差或者最大化模型精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MG-PTQ在WikiText2和C4数据集上进行了广泛的实验,结果表明其性能优于现有的SOTA方法GPTQ。具体来说,在低比特(例如2比特)量化条件下,MG-PTQ能够显著提升模型的精度,缩小与全精度模型之间的差距,为低比特量化性能设立了新的基准。

🎯 应用场景

该研究成果可广泛应用于大语言模型在边缘设备或资源受限环境中的部署,例如移动设备、嵌入式系统等。通过低比特量化,可以显著降低模型大小和计算复杂度,从而实现更高效的模型推理。此外,该方法还可以应用于模型压缩、加速等领域,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Post-Training Quantization (PTQ) is pivotal for deploying large language models (LLMs) within resource-limited settings by significantly reducing resource demands. However, existing PTQ strategies underperform at low bit levels < 3 bits due to the significant difference between the quantized and original weights. To enhance the quantization performance at low bit widths, we introduce a Mixed-precision Graph Neural PTQ (MG-PTQ) approach, employing a graph neural network (GNN) module to capture dependencies among weights and adaptively assign quantization bit-widths. Through the information propagation of the GNN module, our method more effectively captures dependencies among target weights, leading to a more accurate assessment of weight importance and optimized allocation of quantization strategies. Extensive experiments on the WikiText2 and C4 datasets demonstrate that our MG-PTQ method outperforms previous state-of-the-art PTQ method GPTQ, setting new benchmarks for quantization performance under low-bit conditions.