CPTQuant - A Novel Mixed Precision Post-Training Quantization Techniques for Large Language Models
作者: Amitash Nanda, Sree Bhargavi Balija, Debashis Sahoo
分类: cs.CL, cs.LG
发布日期: 2024-12-03
备注: 11 pages, 9 figures
💡 一句话要点
CPTQuant:一种用于大型语言模型的新型混合精度后训练量化技术
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 量化 混合精度 模型压缩 后训练量化
📋 核心要点
- 大型语言模型面临着巨大的内存和计算需求,现有量化方法难以在压缩率和精度之间取得平衡。
- CPTQuant提出了一种综合的混合精度量化策略,通过相关性、剪枝和泰勒分解等方法,自适应地为不同层分配精度。
- 实验结果表明,CPTQuant在多种LLM上实现了高达4倍的压缩和2倍的效率提升,同时保持了可接受的精度损失。
📝 摘要(中文)
大型语言模型极大地改变了自然语言任务的理解和生成,但它们也带来了巨大的内存和计算需求。量化技术已成为解决这些挑战同时保持准确性和提高能源效率的有希望的途径。我们提出了CPTQuant,一个综合策略,它引入了基于相关性的(CMPQ)、基于剪枝的(PMPQ)和基于泰勒分解的(TDMPQ)混合精度技术。CMPQ基于不同层的典型相关分析来调整精度级别。PMPQ基于层对稀疏性的敏感性来逐层优化精度。TDMPQ使用泰勒分解来评估每层对输入扰动的敏感性,从而修改精度。这些策略为更敏感的层分配更高的精度,同时降低对鲁棒层的精度。CPTQuant评估了BERT、OPT-125M、OPT-350M、OPT-1.3B和OPT-2.7B的性能。我们证明,与Hugging Face FP16相比,压缩率高达4倍,效率提高了2倍,而精度下降最小。PMPQ在实现显著更高的模型压缩方面表现突出。跨各种LLM的敏感性分析表明,初始和最后30%的层比其余层表现出更高的敏感性。对于分类任务,PMPQ的压缩率比其他方法高出11%,而对于语言建模任务,TDMPQ的压缩率高出30%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型部署时面临的内存和计算资源瓶颈问题。现有的量化方法,特别是均匀量化,无法充分利用模型不同层对量化敏感度的差异,导致压缩率受限或精度损失过大。
核心思路:论文的核心思路是采用混合精度量化,即根据模型不同层对量化的敏感程度,动态地分配不同的量化精度。对敏感层使用高精度,对不敏感层使用低精度,从而在保证精度的前提下,最大化模型压缩率。
技术框架:CPTQuant包含三个主要的混合精度量化技术:CMPQ(基于相关性)、PMPQ(基于剪枝)和TDMPQ(基于泰勒分解)。CMPQ利用典型相关分析评估层之间的相关性,并据此调整精度。PMPQ基于层对稀疏性的敏感性来优化精度,敏感层保留较高精度。TDMPQ使用泰勒分解评估层对输入扰动的敏感性,并据此调整精度。这三种方法可以单独使用,也可以组合使用。
关键创新:论文的关键创新在于提出了三种不同的混合精度量化策略,分别从相关性、剪枝敏感性和扰动敏感性三个角度评估模型不同层的量化敏感度。这使得CPTQuant能够更精细地控制量化过程,从而在压缩率和精度之间取得更好的平衡。
关键设计:CMPQ使用典型相关分析来衡量层之间的相关性,并使用一个阈值来确定哪些层应该使用更高的精度。PMPQ通过评估剪枝对模型性能的影响来确定层的敏感性,并使用一个比例因子来调整精度。TDMPQ使用一阶泰勒展开来近似层对输入扰动的敏感性,并使用一个缩放因子来调整精度。具体参数设置需要根据不同的模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CPTQuant在BERT、OPT-125M、OPT-350M、OPT-1.3B和OPT-2.7B等多个LLM上实现了显著的压缩效果。与Hugging Face FP16相比,CPTQuant实现了高达4倍的压缩和2倍的效率提升,同时保持了可接受的精度损失。PMPQ在模型压缩方面表现突出,而TDMPQ在语言建模任务中表现更佳。敏感性分析表明,LLM的初始和最后30%的层通常比中间层更敏感。
🎯 应用场景
CPTQuant适用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备和资源受限的服务器。通过降低模型大小和计算复杂度,CPTQuant可以显著提高LLM在这些场景下的可用性和效率,加速LLM在自然语言处理、机器翻译、文本生成等领域的应用。
📄 摘要(原文)
Large language models have transformed the comprehension and generation of natural language tasks, but they come with substantial memory and computational requirements. Quantization techniques have emerged as a promising avenue for addressing these challenges while preserving accuracy and making energy efficient. We propose CPTQuant, a comprehensive strategy that introduces correlation-based (CMPQ), pruning-based (PMPQ), and Taylor decomposition-based (TDMPQ) mixed precision techniques. CMPQ adapts the precision level based on canonical correlation analysis of different layers. PMPQ optimizes precision layer-wise based on their sensitivity to sparsity. TDMPQ modifies precision using Taylor decomposition to assess each layer's sensitivity to input perturbation. These strategies allocate higher precision to more sensitive layers while diminishing precision to robust layers. CPTQuant assesses the performance across BERT, OPT-125M, OPT-350M, OPT-1.3B, and OPT-2.7B. We demonstrate up to 4x compression and a 2x-fold increase in efficiency with minimal accuracy drop compared to Hugging Face FP16. PMPQ stands out for achieving a considerably higher model compression. Sensitivity analyses across various LLMs show that the initial and final 30% of layers exhibit higher sensitivities than the remaining layers. PMPQ demonstrates an 11% higher compression ratio than other methods for classification tasks, while TDMPQ achieves a 30% greater compression ratio for language modeling tasks.