DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization

📄 arXiv: 2410.08666v1 📥 PDF

作者: Yanfeng Jiang, Zelan Yang, Bohua Chen, Shen Li, Yong Li, Tao Li

分类: cs.LG, cs.AI

发布日期: 2024-10-11


💡 一句话要点

DeltaDQ:通过分组Dropout和分离量化实现微调LLM的超高Delta压缩

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型压缩 Delta压缩 量化 Dropout 微调 模型部署

📋 核心要点

  1. 现有方法在压缩微调LLM的delta权重时,难以实现超高压缩比,导致部署开销过大。
  2. DeltaDQ利用delta权重中间结果的平衡特性,通过分组Dropout和分离量化实现超高压缩。
  3. 实验表明,DeltaDQ在WizardMath和WizardCoder模型上实现了显著的压缩率提升,同时保持或提升了模型精度。

📝 摘要(中文)

大型语言模型通过监督微调在各种下游任务中表现出色。然而,下游任务的多样性和实际需求使得部署多个全参数微调模型具有挑战性。现有的压缩delta权重的方法难以实现超高压缩,无法最小化部署开销。为了解决上述问题,我们提出了一种新颖的分布驱动的delta压缩框架DeltaDQ,它利用分组Dropout和分离量化来实现delta权重的超高压缩。我们观察到delta权重的矩阵计算中间结果表现出极小的方差和min-max范围特性,称之为平衡中间结果。利用这一现象,我们引入分组Dropout,使用最佳组大小对delta权重执行dropout。此外,使用分离量化,对稀疏权重进行量化和分解,以实现更低的比特位。实验结果表明,对于不同参数规模的WizardMath和WizardCoder模型,与基线相比,DeltaDQ实现了16倍压缩,并提高了准确性。此外,DeltaDQ展示了超高压缩比的能力,实现了WizardMath-7B模型128倍压缩和WizardMath-70B模型512倍压缩。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)微调后部署成本高昂的问题。具体来说,针对每个下游任务微调一个完整的LLM会导致大量的模型需要存储和部署。现有的delta压缩方法虽然可以减小模型体积,但压缩率仍然不足以满足实际需求,尤其是在资源受限的环境下。因此,如何实现对微调LLM的delta权重进行超高压缩,成为一个亟待解决的问题。

核心思路:论文的核心思路是观察到delta权重在矩阵计算过程中产生的中间结果具有“平衡中间结果”的特性,即方差极小且数值范围有限。基于此,论文提出利用分组Dropout来进一步稀疏化delta权重,并采用分离量化方法对稀疏权重进行更高效的压缩。通过这种方式,可以在保证模型性能的前提下,大幅度降低delta权重所需的存储空间。

技术框架:DeltaDQ框架主要包含两个核心模块:分组Dropout和分离量化。首先,对delta权重进行分组,并在每个组内应用Dropout,以进一步稀疏化权重。然后,对稀疏后的权重进行分离量化,将权重分解为多个部分,并对每个部分采用不同的量化策略,从而实现更低的比特位表示。整个流程旨在最大程度地压缩delta权重,同时尽可能地保留模型性能。

关键创新:DeltaDQ的关键创新在于发现了delta权重中间结果的“平衡中间结果”特性,并基于此设计了分组Dropout和分离量化方法。与传统的权重压缩方法不同,DeltaDQ充分利用了delta权重的特殊分布,从而实现了更高的压缩率。此外,分组Dropout的设计允许在更细粒度上控制权重的稀疏程度,从而更好地平衡压缩率和模型性能。

关键设计:分组Dropout的关键设计在于确定最佳的组大小。论文通过实验发现,不同的组大小会对压缩率和模型性能产生不同的影响。分离量化的关键设计在于如何将权重分解为多个部分,并为每个部分选择合适的量化策略。论文可能采用了诸如聚类、哈夫曼编码等技术来优化量化过程。具体的参数设置、损失函数和网络结构等细节需要在论文正文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeltaDQ在WizardMath和WizardCoder模型上取得了显著的压缩效果。对于WizardMath-7B模型,实现了128倍的压缩,对于WizardMath-70B模型,实现了512倍的压缩。同时,与基线方法相比,DeltaDQ在实现更高压缩率的同时,还提高了模型的准确性,表明该方法在压缩性能和模型性能之间取得了良好的平衡。

🎯 应用场景

DeltaDQ技术可广泛应用于资源受限的场景,例如移动设备、边缘计算等。通过超高压缩微调LLM,可以降低模型部署成本,使得在这些场景下部署高性能的AI应用成为可能。此外,该技术还可以用于模型安全领域,通过压缩模型来降低模型被攻击的风险。未来,DeltaDQ有望推动LLM在更多实际场景中的应用。

📄 摘要(原文)

Large language models achieve exceptional performance on various downstream tasks through supervised fine-tuning. However, the diversity of downstream tasks and practical requirements makes deploying multiple full-parameter fine-tuned models challenging. Current methods that compress the delta weight struggle to achieve ultra-high compression, failing to minimize the deployment overhead. To address the above issue, we propose a novel distribution-driven delta compression framework DeltaDQ, which utilizes Group-wise Dropout and Separate Quantization to achieve ultra-high compression for the delta weight. We have observed that the matrix-computed intermediate results for the delta weight exhibit extremely small variance and min-max range characteristics, referred to as Balanced Intermediate Results. Exploiting this phenomenon, we introduce Group-wise Dropout to perform dropout on the delta weight using an optimal group size. Furthermore, using Separate Quantization, sparse weights are quantized and decomposed to achieve a lower bit. Experimental results show that DeltaDQ achieves 16x compression with improved accuracy compared to baselines for WizardMath and WizardCoder models across different parameter scales. Moreover, DeltaDQ demonstrates the ability for ultra-high compression ratio, achieving 128x compression for the WizardMath-7B model and 512x compression for the WizardMath-70B model.