The Power of Negative Zero: Datatype Customization for Quantized Large Language Models
作者: Yuzong Chen, Xilai Dai, Chi-chih Chang, Yash Akhauri, Mohamed S. Abdelfattah
分类: cs.LG, cs.CL
发布日期: 2025-01-06
备注: under submission
💡 一句话要点
RaZeR:通过重映射负零优化量化大语言模型的数据类型定制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练量化 低精度量化 浮点量化 数据类型定制
📋 核心要点
- 现有INT量化和FP量化在低精度下存在表示能力不足的问题,特别是FP量化的正负零冗余限制了其表达范围。
- 论文提出RaZeR方法,通过将FP量化的负零重新映射到预定义的特殊值,从而更有效地利用量化编码空间,更好地拟合LLM数值分布。
- 实验结果表明,RaZeR在权重和KV-cache量化中均能提升模型精度,并显著加速GEMV计算和LLM解码吞吐量。
📝 摘要(中文)
大型语言模型(LLMs)在各种机器学习任务中表现出卓越的性能,迅速成为最流行的AI工作负载之一。然而,LLMs巨大的内存需求严重阻碍了它们在终端用户中的部署。后训练量化(PTQ)是缓解LLMs内存和计算需求的一种硬件高效方法。虽然传统的整数(INT)数据类型已在PTQ方法中得到广泛应用,但浮点(FP)量化已成为一种可行的替代方案,因为它在拟合LLM数值分布方面非常有效。然而,符号-幅度二进制表示中的FP数据类型包含正零和负零,这限制了其表示能力,尤其是在低精度(3和4位)下。在本文中,我们扩展了基本的FP数据类型以执行冗余零重映射(RaZeR),它将负零FP编码重新映射到一组预定义的特殊值,以最大限度地利用FP量化编码并更好地拟合LLM数值分布。通过仔细选择特殊值,RaZeR优于传统的非对称INT量化,同时实现高计算效率。我们证明RaZeR可以无缝地与权重和KV-cache的量化算法集成,包括具有裁剪和变换的先进方法,并始终如一地实现更好的模型精度。此外,我们实现了一个快速GEMV内核,通过新颖的位级操作,以融合的反量化方式有效地将4位RaZeR值转换为FP16。在现代GPU上,我们的评估表明,与FP16实现相比,RaZeR将GEMV速度提高了高达7.56倍,同时在LLM解码吞吐量方面实现了高达2.72倍的加速。
🔬 方法详解
问题定义:论文旨在解决低精度量化大语言模型时,浮点数量化数据类型中正负零冗余导致的表示能力受限问题。现有方法,如整数(INT)量化和传统浮点(FP)量化,在极低比特(如3或4比特)下,无法充分利用编码空间来表示LLM中复杂的数值分布,导致精度损失。
核心思路:论文的核心思路是重新利用浮点数中的负零编码。在标准的浮点数表示中,正零和负零都代表数值零,存在冗余。RaZeR方法将负零编码重新映射到预先定义的特殊值,从而扩展了量化数据类型的表示范围,使其能够更好地拟合LLM中的数值分布。这样设计的目的是在不增加比特数的情况下,提升量化模型的精度。
技术框架:RaZeR方法可以集成到现有的量化框架中,包括权重和KV-cache的量化。其主要流程包括:1) 使用标准的量化算法(如PTQ)对LLM进行量化;2) 在量化过程中,检测到负零的FP编码;3) 将负零编码替换为预定义的特殊值;4) 在推理时,使用优化的GEMV内核进行计算,该内核能够快速地将RaZeR值反量化为FP16。
关键创新:RaZeR的关键创新在于对负零编码的重新利用。与传统的量化方法不同,RaZeR没有简单地忽略或舍弃负零,而是将其视为一个可用的编码空间,并赋予其新的含义。这种方法有效地扩展了量化数据类型的表示能力,尤其是在低精度下。
关键设计:RaZeR的关键设计包括:1) 特殊值的选择:论文需要仔细选择用于替换负零的特殊值,以确保它们能够有效地表示LLM中的重要数值。这些特殊值通常是根据LLM的数值分布统计信息来确定的。2) 优化的GEMV内核:为了充分利用RaZeR的优势,论文实现了一个优化的GEMV内核,该内核能够快速地将4位RaZeR值反量化为FP16,从而加速推理过程。该内核利用位级操作来实现高效的反量化。
📊 实验亮点
实验结果表明,RaZeR在多个LLM上实现了显著的性能提升。例如,在GEMV计算中,RaZeR相比FP16实现加速高达7.56倍;在LLM解码吞吐量方面,RaZeR实现了高达2.72倍的加速。此外,RaZeR在模型精度方面也优于传统的非对称INT量化方法,证明了其在低精度量化方面的有效性。
🎯 应用场景
RaZeR技术可应用于各种需要低精度量化的大型语言模型部署场景,例如移动设备、边缘计算设备和资源受限的服务器。通过降低模型大小和计算复杂度,RaZeR能够使LLM在这些平台上高效运行,从而推动LLM在自然语言处理、机器翻译、文本生成等领域的广泛应用。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable performance across various machine learning tasks, quickly becoming one of the most prevalent AI workloads. Yet the substantial memory requirement of LLMs significantly hinders their deployment for end users. Post-training quantization (PTQ) serves as one of the most hardware-efficient methods to mitigate the memory and computational demands of LLMs. Although the traditional integer (INT) datatype has received widespread adoption in PTQ methods, floating-point (FP) quantization has emerged as a viable alternative thanks to its effectiveness in fitting LLM numerical distributions. However, the FP datatype in sign-magnitude binary representation contains both positive and negative zero, which constrains its representation capability, particularly under low precision (3 and 4 bits). In this paper, we extend the basic FP datatype to perform Redundant Zero Remapping (RaZeR), which remaps the negative zero FP encoding to a set of pre-defined special values to maximally utilize FP quantization encodings and to better fit LLM numerical distributions. Through careful selection of special values, RaZeR outperforms conventional asymmetric INT quantization while achieving high computational efficiency. We demonstrate that RaZeR can be seamlessly integrated with quantization algorithms for both weights and KV-cache, including advanced methods with clipping and transformations, and consistently achieve better model accuracy. Additionally, we implement a fast GEMV kernel with fused dequantization that efficiently converts the 4-bit RaZeR value to FP16 through novel bit-level manipulation. On modern GPUs, our evaluation shows that RaZeR improves the GEMV speed by up to 7.56$\times$ compared to the FP16 implementation, while achieving up to 2.72$\times$ speedup in the LLM decoding throughput.