QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition
作者: Yuxuan Hu, Xiaodong Chen, Cuiping Li, Hong Chen, Jing Zhang
分类: cs.LG, cs.CL
发布日期: 2025-03-25
备注: 18 pages, 8 figures, 8 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出QUAD框架以解决大语言模型量化中的激活异常问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化技术 激活分解 大语言模型 奇异值分解 参数高效微调 模型优化 计算效率
📋 核心要点
- 现有的量化方法在中型大语言模型中由于激活异常导致准确性显著下降,影响了模型的实际应用。
- QUAD框架通过奇异值分解技术抑制激活异常,实现有效的4位量化,同时支持参数高效的微调。
- 实验结果显示,QUAD在多种量化设置下均能保持高达98%的准确率,显著提升了模型的性能。
📝 摘要(中文)
大语言模型(LLMs)在多种应用中表现出色,但由于其庞大的规模,效率较低。虽然量化可以降低计算成本,但现有方法在中型LLM(如Llama-3-8B)中由于激活异常而导致准确性下降。为此,本文提出QUAD(基于激活分解的量化),该框架利用奇异值分解(SVD)来抑制激活异常,从而实现有效的4位量化。QUAD通过使用校准数据离线估计激活奇异向量,构建正交变换矩阵P,将异常值转移到全精度的额外维度,同时将其余组件量化为4位。此外,QUAD还通过可适应的全精度异常权重实现参数高效的微调,缩小量化模型与全精度模型之间的准确性差距。实验表明,QUAD在W4A4量化下实现了94%至96%的准确率,并在W4A4/A8和参数高效微调下对Llama-3和Qwen-2.5模型达到了98%的准确率。
🔬 方法详解
问题定义:本文旨在解决大语言模型在量化过程中由于激活异常导致的准确性下降问题。现有方法在处理中型模型时,激活异常会严重影响量化效果,导致模型性能下降。
核心思路:QUAD框架的核心思想是利用奇异值分解(SVD)技术来抑制激活异常。通过将异常值转移到全精度的额外维度,QUAD能够在保持模型性能的同时实现有效的4位量化。
技术框架:QUAD的整体架构包括两个主要模块:首先,使用校准数据离线估计激活的奇异向量,构建正交变换矩阵P;其次,将激活异常值转移到全精度维度,而其余部分则进行4位量化。此外,QUAD还支持通过可适应的全精度异常权重进行参数高效的微调。
关键创新:QUAD的主要创新在于结合了激活分解与量化技术,能够有效抑制激活异常,保持量化模型的准确性。这一方法与传统量化方法的本质区别在于其对激活异常的处理方式。
关键设计:QUAD在参数设置上采用了4位量化,并通过奇异值分解技术构建正交变换矩阵P。损失函数设计上,QUAD考虑了量化误差与全精度模型之间的差异,以实现更好的微调效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QUAD在W4A4量化下实现了94%至96%的准确率,并在结合参数高效微调的情况下,Llama-3和Qwen-2.5模型的准确率达到了98%。这一结果显著优于现有的量化方法,展示了QUAD在提升模型性能方面的有效性。
🎯 应用场景
QUAD框架在大语言模型的量化与微调中具有广泛的应用潜力,尤其适用于需要高效计算和存储的场景,如移动设备和边缘计算。其技术可以帮助开发更高效的自然语言处理应用,降低资源消耗,同时保持模型性能。
📄 摘要(原文)
Large Language Models (LLMs) excel in diverse applications but suffer inefficiency due to massive scale. While quantization reduces computational costs, existing methods degrade accuracy in medium-sized LLMs (e.g., Llama-3-8B) due to activation outliers. To address this, we propose QUAD (Quantization with Activation Decomposition), a framework leveraging Singular Value Decomposition (SVD) to suppress activation outliers for effective 4-bit quantization. QUAD estimates activation singular vectors offline using calibration data to construct an orthogonal transformation matrix P, shifting outliers to additional dimensions in full precision while quantizing rest components to 4-bit. Additionally, QUAD enables parameter-efficient fine-tuning via adaptable full-precision outlier weights, narrowing the accuracy gap between quantized and full-precision models. Experiments demonstrate that QUAD achieves 94% ~ 96% accuracy under W4A4 quantization and 98% accuracy with W4A4/A8 and parameter-efficient fine-tuning for Llama-3 and Qwen-2.5 models. Our code is available at \href{https://github.com/hyx1999/Quad}{repository}.