Adaptive Block-Scaled Data Types
作者: Jack Cook, Hyemin S. Lee, Kathryn Le, Junxian Guo, Giovanni Traverso, Anantha P. Chandrakasan, Song Han
分类: cs.CL
发布日期: 2026-03-30
备注: 19 pages, 9 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应块缩放数据类型IF4,提升低比特量化语言模型性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低比特量化 自适应量化 语言模型 硬件加速 NVFP4 模型压缩
📋 核心要点
- NVFP4量化误差分布不均,导致接近最大值时量化误差大,限制了其性能。
- 提出自适应块缩放数据类型IF4,动态选择FP4或INT4表示,适应输入值分布。
- IF4在量化训练中损失更低,后训练量化中准确率更高,并设计了高效的IF4 MAC单元。
📝 摘要(中文)
本文提出了一种新的自适应块缩放数据类型,旨在解决NVFP4在量化大型语言模型时,由于误差分布不均导致在每组16个值中接近最大值时产生大量量化误差的问题。针对四比特量化,我们提出的IF4(Int/Float 4)数据类型为每组16个值选择FP4或INT4表示,并像NVFP4一样使用E4M3缩放因子进行缩放。所选数据类型由缩放因子的符号位表示,该符号位目前在NVFP4中未使用。我们将相同的思路应用于设计其他比特宽度的数据类型,包括IF3和IF6。在量化语言模型时,IF4优于现有的4比特块缩放格式,在量化训练期间实现了更低的损失,并在后训练量化中的许多任务上实现了更高的准确性。此外,我们设计并评估了一个IF4乘法累加(MAC)单元,以证明IF4可以在下一代硬件加速器中高效实现。代码已开源。
🔬 方法详解
问题定义:论文旨在解决现有NVFP4等块缩放量化方法在量化大型语言模型时,由于其固定的量化方式无法适应数据分布,导致在某些特定区域(如接近最大值)产生较大误差的问题。这种误差会降低量化模型的性能,尤其是在低比特量化场景下,问题更为突出。
核心思路:论文的核心思路是引入自适应性,即根据输入数据的分布特征,动态地选择不同的量化方式。具体来说,对于每一组数据块,算法会评估使用FP4或INT4哪种方式能够更好地保留原始信息,并选择误差较小的方式进行量化。这种自适应选择能够更有效地利用有限的比特数,降低整体量化误差。
技术框架:整体框架包括以下几个主要步骤:1. 将输入数据划分为大小为16的块。2. 对于每个块,分别评估使用FP4和INT4进行量化的误差。3. 根据误差评估结果,选择误差较小的量化方式。4. 使用选定的量化方式对数据块进行量化,并使用E4M3缩放因子进行缩放。5. 使用缩放因子的符号位来指示所选的量化方式(FP4或INT4)。
关键创新:最重要的技术创新点在于引入了自适应选择量化方式的机制。与传统的固定量化方式相比,IF4能够根据数据的局部特征动态地调整量化策略,从而更有效地降低量化误差。此外,利用NVFP4中未使用的符号位来指示量化方式,无需额外的比特开销。
关键设计:IF4的关键设计包括:1. 使用FP4和INT4两种量化方式,分别针对不同类型的数据分布进行优化。2. 使用E4M3缩放因子,与NVFP4保持兼容性。3. 利用缩放因子的符号位来指示所选的量化方式,避免引入额外的比特开销。4. 设计了IF4乘法累加(MAC)单元,以支持在硬件加速器上高效执行IF4运算。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IF4在量化语言模型时,相比现有的4比特块缩放格式,在量化训练期间实现了更低的损失,并在后训练量化中的许多任务上实现了更高的准确性。此外,论文还设计并评估了一个IF4乘法累加(MAC)单元,证明了IF4可以在下一代硬件加速器中高效实现。
🎯 应用场景
该研究成果可广泛应用于对计算资源和能耗敏感的场景,例如移动设备、边缘计算和嵌入式系统。通过使用IF4等低比特量化技术,可以在保证模型性能的前提下,显著降低模型的大小和计算复杂度,从而实现更高效的模型部署和推理。此外,该技术还有助于推动大型语言模型在资源受限设备上的应用。
📄 摘要(原文)
NVFP4 has grown increasingly popular as a 4-bit format for quantizing large language models due to its hardware support and its ability to retain useful information with relatively few bits per parameter. However, the format is not without limitations: recent work has shown that NVFP4 suffers from its error distribution, resulting in large amounts of quantization error on near-maximal values in each group of 16 values. In this work, we leverage this insight to design new Adaptive Block-Scaled Data Types that can adapt to the distribution of their input values. For four-bit quantization, our proposed IF4 (Int/Float 4) data type selects between FP4 and INT4 representations for each group of 16 values, which are then scaled by an E4M3 scale factor as is done with NVFP4. The selected data type is denoted using the scale factor's sign bit, which is currently unused in NVFP4, and we apply the same insight to design formats for other bit-widths, including IF3 and IF6. When used to quantize language models, we find that IF4 outperforms existing 4-bit block-scaled formats, achieving lower loss during quantized training and achieving higher accuracy on many tasks in post-training quantization. We additionally design and evaluate an IF4 Multiply-Accumulate (MAC) unit to demonstrate that IF4 can be implemented efficiently in next-generation hardware accelerators. Our code is available at https://github.com/mit-han-lab/fouroversix.