Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations
作者: Patrick Blumenberg, Thomas Graave, Tim Fingscheidt
分类: cs.LG, cs.CL
发布日期: 2025-05-10
💡 一句话要点
提出BOF4量化方法,优化LLM块状量化,提升内存效率并降低性能损失。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型量化 块状量化 低比特量化 混合精度量化
📋 核心要点
- 现有LLM量化方法(如NF4、AF4)在块状量化时存在次优量化误差,导致性能下降。
- 提出BOF4量化方法,通过优化块状量化过程,设计了一系列量化器,有效减少量化误差。
- 引入OPQ混合精度量化策略,结合BOF4-S,显著提升了4比特量化下LLM的困惑度性能。
📝 摘要(中文)
大型语言模型(LLM)在微调和推理过程中需要大量的内存容量。为了实现内存高效的微调,现有方法将块状量化技术(如NF4和AF4)应用于网络权重。我们发现这些量化技术会产生次优的量化误差。因此,我们首先提出了一种块状量化的优化方法。利用该方法,我们设计了一系列名为4-bit block-wise optimal float (BOF4)的量化器,与基线方法相比,该量化器始终能减少量化误差。我们为优化过程提供了一个理论解和一个数据驱动解,并证明了它们的实际等价性。其次,我们提出了一种基于有符号绝对块最大值(BOF4-S)的归一化方法的改进,从而进一步减少了量化误差,并在经验上实现了语言建模性能的降低。第三,我们通过实验研究了应用于LLM的块状量化方法的其他变体,一方面研究了准确表示零和大幅度权重的重要性,另一方面研究了针对各种误差指标的优化。最后,我们引入了一种名为离群值保持量化(OPQ)的混合精度量化策略,以解决块状量化中由离群值权重引起的分布不匹配问题。通过以16位精度存储离群值权重(OPQ),同时应用BOF4-S,我们在关于困惑度的4位块状量化技术中实现了最佳性能。
🔬 方法详解
问题定义:现有的大型语言模型量化方法,如NF4和AF4,在进行块状量化时会产生次优的量化误差。这些误差会导致量化后的模型在性能上有所下降,例如困惑度增加。因此,需要一种更优的量化方法来减少量化误差,从而在保持模型性能的同时,提高内存效率。
核心思路:论文的核心思路是通过优化块状量化过程来减少量化误差。具体来说,就是找到一组最优的量化参数,使得量化后的权重与原始权重之间的误差最小化。论文提出了理论解和数据驱动解两种方法来寻找这些最优参数,并证明了它们的实际等价性。此外,还通过改进归一化方法和引入混合精度量化策略来进一步提升量化效果。
技术框架:论文提出的方法主要包含以下几个阶段:1) 块划分:将模型的权重矩阵划分为多个块。2) 量化参数优化:针对每个块,使用理论解或数据驱动解来优化量化参数,得到BOF4量化器。3) 归一化改进:使用基于有符号绝对块最大值(BOF4-S)的归一化方法。4) 混合精度量化:对于离群值权重,使用16位精度存储(OPQ),其余权重使用BOF4-S量化。
关键创新:论文最重要的技术创新点在于提出了BOF4量化方法,该方法通过优化块状量化过程,显著减少了量化误差。与现有的NF4和AF4方法相比,BOF4能够更准确地表示原始权重,从而在量化后保持更好的模型性能。此外,OPQ混合精度量化策略也是一个重要的创新,它通过对离群值进行特殊处理,解决了块状量化中由离群值引起的分布不匹配问题。
关键设计:在BOF4量化器的设计中,关键在于找到最优的量化参数。论文提供了两种求解方法:理论解和数据驱动解。理论解基于量化误差的数学推导,可以直接计算出最优参数。数据驱动解则通过最小化量化误差来学习最优参数。在BOF4-S中,使用有符号绝对块最大值进行归一化,可以更好地处理权重中的符号信息。OPQ的关键在于确定离群值的阈值,以及选择合适的16位精度存储方案。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BOF4量化方法能够显著降低量化误差,并提升LLM的性能。结合BOF4-S和OPQ,在4比特块状量化下,困惑度指标优于其他基线方法。例如,在特定模型上,使用OPQ+BOF4-S相比于传统方法,困惑度降低了显著百分比,证明了该方法的有效性。
🎯 应用场景
该研究成果可广泛应用于大语言模型的压缩和加速,尤其是在资源受限的设备上部署LLM。通过降低模型内存占用,可以实现更高效的微调和推理,加速LLM在移动设备、边缘计算等领域的应用。此外,该方法也有助于降低LLM的训练和部署成本,推动LLM的普及。
📄 摘要(原文)
Large language models (LLMs) demand extensive memory capacity during both fine-tuning and inference. To enable memory-efficient fine-tuning, existing methods apply block-wise quantization techniques, such as NF4 and AF4, to the network weights. We show that these quantization techniques incur suboptimal quantization errors. Therefore, as a first novelty, we propose an optimization approach for block-wise quantization. Using this method, we design a family of quantizers named 4-bit block-wise optimal float (BOF4), which consistently reduces the quantization error compared to both baseline methods. We provide both a theoretical and a data-driven solution for the optimization process and prove their practical equivalence. Secondly, we propose a modification to the employed normalization method based on the signed absolute block maximum (BOF4-S), enabling further reduction of the quantization error and empirically achieving less degradation in language modeling performance. Thirdly, we explore additional variations of block-wise quantization methods applied to LLMs through an experimental study on the importance of accurately representing zero and large-amplitude weights on the one hand, and optimization towards various error metrics on the other hand. Lastly, we introduce a mixed-precision quantization strategy dubbed outlier-preserving quantization (OPQ) to address the distributional mismatch induced by outlier weights in block-wise quantization. By storing outlier weights in 16-bit precision (OPQ) while applying BOF4-S, we achieve top performance among 4-bit block-wise quantization techniques w.r.t. perplexity.