Grid Games: The Power of Multiple Grids for Quantizing Large Language Models
作者: Vage Egiazarian, Erik Schultheis, Andrei Panferov, Earl Killian, Torsten Hoefler, Dan Alistarh
分类: cs.LG
发布日期: 2026-05-12
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
提出多网格量化方法,显著提升大语言模型微尺度4比特量化精度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 量化 模型压缩 低比特量化 自适应网格 后训练量化 预训练
📋 核心要点
- 现有微尺度4比特量化方法(如NVFP4、MXFP4)依赖固定浮点网格,限制了量化精度。
- 提出Power-of-Two-Grids (PO2)方法,为每组值选择最优网格,提升量化灵活性和精度。
- 实验表明,自适应网格在模型量化中始终优于单网格FP4,尤其是在权重和激活同时量化时。
📝 摘要(中文)
本文研究了一种量化的自然扩展方法,即对于每个数值组,允许从两个或多个4比特网格中选择“更好”的一个,并通过尺度值中的一位或多位来标记。论文形式化了二次幂网格(PO2)问题,并提供了理论结果,表明诸如MXFP或NVFP等实用的微尺度分组格式可以从PO2网格中受益匪浅,而对于非常大的组,这种优势会消失。在实践方面,论文实例化了几个网格族,包括:1) PO2(NF4),将标准NF4正态网格与学习网格配对;2) MPO2,一个在真实权重和激活上完全学习的网格对;3) PO2(Split87),一个显式零非对称网格;4) SFP4,一个TensorCore可实现的元组,将NVFP4与两个移位变体配对。标准开放模型的后训练量化和类Llama模型的预训练结果表明,自适应网格在权重和激活量化下,始终优于单网格FP4的精度。源代码可在https://github.com/IST-DASLab/GridGames 获取。
🔬 方法详解
问题定义:现有的大语言模型量化方法,特别是微尺度4比特格式,通常使用固定的浮点网格来量化数值。这种固定网格的限制在于,它可能无法很好地适应模型中不同数值范围和分布的量化需求,导致量化误差增大,模型精度下降。尤其是在权重和激活同时量化时,这种影响更为显著。
核心思路:论文的核心思路是引入多个量化网格,并为每个数值组选择最合适的网格进行量化。通过这种方式,量化过程可以更好地适应不同数值组的特性,从而降低量化误差,提高模型精度。选择多个网格的思想借鉴了集成学习的思想,即通过多个模型的组合来提高整体性能。
技术框架:该方法的核心在于构建和选择多个量化网格。整体流程包括:1)定义一组候选的量化网格(例如,NF4、学习网格、非对称网格等);2)对于每个数值组,计算其在不同网格下的量化误差;3)选择量化误差最小的网格进行量化;4)使用尺度值中的额外比特来标记所选择的网格。论文提出了几种具体的网格族,包括PO2(NF4)、MPO2、PO2(Split87)和SFP4。
关键创新:该方法最重要的创新点在于引入了自适应的量化网格选择机制。与传统的固定网格量化方法相比,该方法可以根据数值组的特性动态地选择最合适的量化网格,从而显著提高量化精度。此外,论文还提出了几种新的网格族,例如MPO2,它可以在真实权重和激活上完全学习,进一步提高了量化的灵活性和性能。
关键设计:关键设计包括:1)网格族的设计,例如PO2(NF4)将标准NF4网格与学习网格结合,MPO2完全学习网格,PO2(Split87)使用非对称网格;2)网格选择策略,通常基于量化误差最小化原则;3)使用尺度值中的额外比特来编码所选择的网格,这需要在量化位数和网格数量之间进行权衡;4)SFP4的设计,它针对TensorCore进行了优化,使其可以在硬件上高效实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,自适应网格量化方法在标准开放模型和类Llama模型的后训练量化和预训练中,始终优于单网格FP4的精度。例如,PO2(NF4)在某些模型上可以达到与FP16接近的精度,同时显著降低了模型大小。MPO2在真实权重和激活上完全学习,进一步提高了量化性能。SFP4针对TensorCore进行了优化,使其可以在硬件上高效实现。
🎯 应用场景
该研究成果可广泛应用于大语言模型的压缩和加速,尤其是在资源受限的边缘设备上部署大型模型。通过提高量化精度,可以在保持模型性能的同时,显著降低模型大小和计算复杂度,从而实现更高效的模型推理。该方法还可应用于其他深度学习模型的量化,具有广泛的应用前景。
📄 摘要(原文)
A major recent advance in quantization is given by microscaled 4-bit formats such as NVFP4 and MXFP4, quantizing values into small groups sharing a scale, assuming a fixed floating-point grid. In this paper, we study the following natural extension: assume that, for each group of values, we are free to select the "better" among two or more 4-bit grids marked by one or more bits in the scale value. We formalize the power-of-two-grids (PO2) problem, and provide theoretical results showing that practical small-group formats such as MXFP or NVFP can benefit significantly from PO2 grids, while the advantage vanishes for very large groups. On the practical side, we instantiate several grid families, including 1) PO2(NF4), which pairs the standard NF4 normal grid with a learned grid, 2) MPO2, a grid pair that is fully learned over real weights and activations, 3) PO2(Split87), an explicit-zero asymmetric grid and 4) SFP4, a TensorCore-implementable triple which pairs NVFP4 with two shifted variants. Results for post-training quantization of standard open models and pre-training of Llama-like models show that adaptive grids consistently improve accuracy vs single-grid FP4 under both weight-only and weight+activation. Source code is available at https://github.com/IST-DASLab/GridGames.