DL-QAT: Weight-Decomposed Low-Rank Quantization-Aware Training for Large Language Models

📄 arXiv: 2504.09223v1 📥 PDF

作者: Wenjin Ke, Zhe Li, Dong Li, Lu Tian, Emad Barsoum

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-04-12

期刊: https://aclanthology.org/2024.emnlp-industry.10/


💡 一句话要点

提出权重分解低秩量化感知训练(DL-QAT),高效量化大型语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 大型语言模型 低秩近似 权重分解 模型压缩

📋 核心要点

  1. 现有PTQ方法在低比特量化LLM时性能下降明显,QAT方法虽能缓解,但计算成本过高。
  2. DL-QAT通过权重分解和低秩近似,显著减少了QAT的训练参数量,降低计算负担。
  3. 实验表明,DL-QAT在LLaMA模型上实现了优于现有方法的量化性能,尤其在低比特设置下。

📝 摘要(中文)

本文针对大型语言模型(LLMs)推理效率提升这一关键问题,提出了一种权重分解低秩量化感知训练(DL-QAT)方法。尽管后训练量化(PTQ)被广泛应用,但在低比特量化级别上,尤其是在下游任务中,仍面临挑战。量化感知训练(QAT)虽然可以缓解此问题,但计算资源需求巨大。DL-QAT融合了QAT的优势,同时仅训练不到1%的总参数。具体而言,引入了组特定的量化幅度来调整每个量化组的整体尺度。在每个量化组内,使用LoRA矩阵来更新量化空间中的权重大小和方向。在LLaMA和LLaMA2模型家族上的验证结果表明,该方法在不同量化粒度上均优于基线方法。例如,在3比特LLaMA-7B模型上,该方法在MMLU上的性能比之前的最佳方法高出4.2%。此外,预训练模型的量化结果也超过了之前的QAT方法,证明了该方法的优越性能和效率。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在低比特量化下的性能下降问题,以及传统量化感知训练(QAT)计算资源需求过大的问题。现有方法,如后训练量化(PTQ),在低比特量化时精度损失严重,而传统的QAT方法需要训练整个模型,计算成本非常高,难以应用于大型模型。

核心思路:论文的核心思路是通过权重分解和低秩近似来减少QAT的训练参数量。具体来说,将权重分解为组特定的量化幅度和量化组内的低秩矩阵,只训练这些少量参数,从而降低计算负担,同时保持量化模型的性能。

技术框架:DL-QAT的整体框架包括以下几个主要步骤:1) 将模型权重划分为多个量化组;2) 为每个量化组引入一个组特定的量化幅度参数;3) 在每个量化组内,使用LoRA(Low-Rank Adaptation)矩阵来更新权重;4) 使用量化感知训练方法,同时训练量化幅度参数和LoRA矩阵。

关键创新:该方法最重要的创新点在于将权重分解和低秩近似引入到量化感知训练中,从而显著减少了需要训练的参数量。与传统的QAT方法相比,DL-QAT只需要训练不到1%的参数,大大降低了计算成本,使其能够应用于大型语言模型的量化。

关键设计:关键设计包括:1) 组特定的量化幅度参数,用于调整每个量化组的整体尺度,提高量化精度;2) LoRA矩阵,用于在量化空间中更新权重的大小和方向,捕捉量化带来的误差;3) 量化损失函数,用于指导量化幅度参数和LoRA矩阵的训练,保证量化模型的性能。

📊 实验亮点

实验结果表明,DL-QAT在LLaMA和LLaMA2模型家族上取得了显著的性能提升。例如,在LLaMA-7B模型上,DL-QAT在3比特量化下,MMLU基准测试中比之前的最佳方法高出4.2%。此外,DL-QAT在预训练模型上的量化结果也优于之前的QAT方法,证明了其优越的性能和效率。

🎯 应用场景

DL-QAT可应用于各种需要高效推理的大型语言模型场景,例如移动设备、边缘计算和资源受限的环境。该方法能够显著降低模型大小和计算复杂度,从而实现更快的推理速度和更低的功耗,为LLM在实际应用中的部署提供了可能。

📄 摘要(原文)

Improving the efficiency of inference in Large Language Models (LLMs) is a critical area of research. Post-training Quantization (PTQ) is a popular technique, but it often faces challenges at low-bit levels, particularly in downstream tasks. Quantization-aware Training (QAT) can alleviate this problem, but it requires significantly more computational resources. To tackle this, we introduced Weight-Decomposed Low-Rank Quantization-Aware Training (DL-QAT), which merges the advantages of QAT while training only less than 1% of the total parameters. Specifically, we introduce a group-specific quantization magnitude to adjust the overall scale of each quantization group. Within each quantization group, we use LoRA matrices to update the weight size and direction in the quantization space. We validated the effectiveness of our method on the LLaMA and LLaMA2 model families. The results show significant improvements over our baseline method across different quantization granularities. For instance, for LLaMA-7B, our approach outperforms the previous state-of-the-art method by 4.2% in MMLU on 3-bit LLaMA-7B model. Additionally, our quantization results on pre-trained models also surpass previous QAT methods, demonstrating the superior performance and efficiency of our approach.