PoTPTQ: A Two-step Power-of-Two Post-training for LLMs

📄 arXiv: 2507.11959v1 📥 PDF

作者: Xinyu Wang, Vahid Partovi Nia, Peng Lu, Jerry Huang, Xiao-Wen Chang, Boxing Chen, Yufei Cui

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-16

备注: Accepted at ECAI 2025 (European Conference on Artificial Intelligence)


💡 一句话要点

PoTPTQ:一种用于LLM的二步幂次量化后训练方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 量化 后训练量化 低精度量化 推理加速

📋 核心要点

  1. 现有PoT量化方法在GPU上效率较低,主要原因是符号位的纠缠和反量化所需的复杂位操作。
  2. 提出一种新的两步PoT量化框架,通过优化量化尺度初始化和细化,提升极低精度下的模型精度和推理速度。
  3. 实验结果表明,该方法在低精度量化下优于现有整数量化方法,并在GPU上实现了显著的推理加速。

📝 摘要(中文)

大型语言模型(LLM)在各种自然语言处理(NLP)任务中表现出了卓越的性能。然而,由于需要大量的计算资源,它们的部署具有挑战性。幂次(PoT)量化是解决这一难题的常用工具。尽管先前关于PoT量化的工作可以使用定点加法在CPU上有效地进行反量化,但它在GPU上的效果较差。原因是符号位的纠缠和反量化所需的顺序位操作。我们提出了一种新的LLM权重POT量化框架,该框架(i)在极低精度数字格式中优于最先进的精度,并且(ii)通过更有效的反量化实现更快的推理。为了保持量化模型的准确性,我们引入了一种两步后训练算法:(i)使用鲁棒的起点初始化量化尺度,以及(ii)使用最小的校准集细化这些尺度。我们的PoT后训练算法的性能超过了当前最先进的整数量化,特别是在2位和3位等低精度下。与均匀整数反量化相比,我们的PoT量化加速了浮点推理所需的反量化步骤,并在NVIDIA V100上实现了3.67倍的加速,在NVIDIA RTX 4090上实现了1.63倍的加速。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)部署时计算资源需求高的问题,特别是在使用幂次(PoT)量化时,现有方法在GPU上的效率较低,精度也存在损失。现有PoT量化方法在GPU上反量化时,由于符号位的纠缠和复杂的位操作,导致效率下降,并且在极低精度下(如2-bit, 3-bit)精度损失严重。

核心思路:论文的核心思路是通过一种两步后训练算法来优化PoT量化的量化尺度,从而在极低精度下保持模型精度,并设计更高效的反量化方法以加速GPU推理。该方法旨在克服现有PoT量化方法在GPU上的效率瓶颈和低精度下的精度损失问题。

技术框架:该方法主要包含两个阶段:1) 量化尺度初始化:使用一种鲁棒的策略初始化量化尺度,为后续的微调提供一个良好的起点。2) 量化尺度细化:使用一个最小的校准数据集,通过后训练的方式对量化尺度进行微调,以进一步提升量化模型的精度。在推理阶段,设计了高效的PoT反量化方法,以加速GPU上的推理过程。

关键创新:该方法最重要的创新点在于提出了一个两步后训练算法,该算法能够有效地优化PoT量化的量化尺度,从而在极低精度下保持模型精度。此外,该方法还设计了高效的PoT反量化方法,以加速GPU上的推理过程。与现有方法相比,该方法在极低精度下具有更高的精度,并且在GPU上具有更高的推理效率。

关键设计:量化尺度初始化策略的具体细节未知。量化尺度细化阶段使用的损失函数和优化器未知。校准数据集的大小和选择策略未知。高效PoT反量化方法的具体实现细节未知,但其核心在于避免符号位的纠缠和复杂的位操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出的PoTPTQ方法在低精度量化方面表现出色,特别是在2位和3位量化下,精度优于现有整数量化方法。实验结果显示,与均匀整数反量化相比,该方法在NVIDIA V100 GPU上实现了3.67倍的加速,在NVIDIA RTX 4090 GPU上实现了1.63倍的加速,证明了其在GPU上的高效推理能力。

🎯 应用场景

该研究成果可应用于各种需要低功耗、低延迟的大型语言模型部署场景,例如移动设备、边缘计算设备等。通过降低模型大小和计算复杂度,可以使得LLM在资源受限的环境中也能高效运行,从而推动LLM在更广泛领域的应用,例如智能助手、自然语言理解、机器翻译等。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable performance across various natural language processing (NLP) tasks. However, their deployment is challenging due to the substantial computational resources required. Power-of-two (PoT) quantization is a general tool to counteract this difficulty. Albeit previous works on PoT quantization can be efficiently dequantized on CPUs using fixed-point addition, it showed less effectiveness on GPUs. The reason is entanglement of the sign bit and sequential bit manipulations needed for dequantization. We propose a novel POT quantization framework for LLM weights that (i) outperforms state-of-the-art accuracy in extremely low-precision number formats, and (ii) enables faster inference through more efficient dequantization. To maintain the accuracy of the quantized model, we introduce a two-step post-training algorithm: (i) initialize the quantization scales with a robust starting point, and (ii) refine these scales using a minimal calibration set. The performance of our PoT post-training algorithm surpasses the current state-of-the-art in integer quantization, particularly at low precisions such as 2- and 3-bit formats. Our PoT quantization accelerates the dequantization step required for the floating point inference and leads to $3.67\times$ speed up on a NVIDIA V100, and $1.63\times$ on a NVIDIA RTX 4090, compared to uniform integer dequantization.