PoTPTQ: A Two-step Power-of-Two Post-training for LLMs

作者: Xinyu Wang, Vahid Partovi Nia, Peng Lu, Jerry Huang, Xiao-Wen Chang, Boxing Chen, Yufei Cui

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-16

备注: Accepted at ECAI 2025 (European Conference on Artificial Intelligence)

💡 一句话要点

PoTPTQ：一种用于LLM的二步幂次量化后训练方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 量化 后训练量化 低精度量化 推理加速

📋 核心要点

现有PoT量化方法在GPU上效率较低，主要原因是符号位的纠缠和反量化所需的复杂位操作。
提出一种新的两步PoT量化框架，通过优化量化尺度初始化和细化，提升极低精度下的模型精度和推理速度。
实验结果表明，该方法在低精度量化下优于现有整数量化方法，并在GPU上实现了显著的推理加速。

📝 摘要（中文）

大型语言模型(LLM)在各种自然语言处理(NLP)任务中表现出了卓越的性能。然而，由于需要大量的计算资源，它们的部署具有挑战性。幂次(PoT)量化是解决这一难题的常用工具。尽管先前关于PoT量化的工作可以使用定点加法在CPU上有效地进行反量化，但它在GPU上的效果较差。原因是符号位的纠缠和反量化所需的顺序位操作。我们提出了一种新的LLM权重POT量化框架，该框架(i)在极低精度数字格式中优于最先进的精度，并且(ii)通过更有效的反量化实现更快的推理。为了保持量化模型的准确性，我们引入了一种两步后训练算法：(i)使用鲁棒的起点初始化量化尺度，以及(ii)使用最小的校准集细化这些尺度。我们的PoT后训练算法的性能超过了当前最先进的整数量化，特别是在2位和3位等低精度下。与均匀整数反量化相比，我们的PoT量化加速了浮点推理所需的反量化步骤，并在NVIDIA V100上实现了3.67倍的加速，在NVIDIA RTX 4090上实现了1.63倍的加速。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）部署时计算资源需求高的问题，特别是在使用幂次（PoT）量化时，现有方法在GPU上的效率较低，精度也存在损失。现有PoT量化方法在GPU上反量化时，由于符号位的纠缠和复杂的位操作，导致效率下降，并且在极低精度下（如2-bit, 3-bit）精度损失严重。

核心思路：论文的核心思路是通过一种两步后训练算法来优化PoT量化的量化尺度，从而在极低精度下保持模型精度，并设计更高效的反量化方法以加速GPU推理。该方法旨在克服现有PoT量化方法在GPU上的效率瓶颈和低精度下的精度损失问题。

技术框架：该方法主要包含两个阶段：1) 量化尺度初始化：使用一种鲁棒的策略初始化量化尺度，为后续的微调提供一个良好的起点。2) 量化尺度细化：使用一个最小的校准数据集，通过后训练的方式对量化尺度进行微调，以进一步提升量化模型的精度。在推理阶段，设计了高效的PoT反量化方法，以加速GPU上的推理过程。

关键创新：该方法最重要的创新点在于提出了一个两步后训练算法，该算法能够有效地优化PoT量化的量化尺度，从而在极低精度下保持模型精度。此外，该方法还设计了高效的PoT反量化方法，以加速GPU上的推理过程。与现有方法相比，该方法在极低精度下具有更高的精度，并且在GPU上具有更高的推理效率。

关键设计：量化尺度初始化策略的具体细节未知。量化尺度细化阶段使用的损失函数和优化器未知。校准数据集的大小和选择策略未知。高效PoT反量化方法的具体实现细节未知，但其核心在于避免符号位的纠缠和复杂的位操作。

🖼️ 关键图片

📊 实验亮点

该论文提出的PoTPTQ方法在低精度量化方面表现出色，特别是在2位和3位量化下，精度优于现有整数量化方法。实验结果显示，与均匀整数反量化相比，该方法在NVIDIA V100 GPU上实现了3.67倍的加速，在NVIDIA RTX 4090 GPU上实现了1.63倍的加速，证明了其在GPU上的高效推理能力。

🎯 应用场景

该研究成果可应用于各种需要低功耗、低延迟的大型语言模型部署场景，例如移动设备、边缘计算设备等。通过降低模型大小和计算复杂度，可以使得LLM在资源受限的环境中也能高效运行，从而推动LLM在更广泛领域的应用，例如智能助手、自然语言理解、机器翻译等。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable performance across various natural language processing (NLP) tasks. However, their deployment is challenging due to the substantial computational resources required. Power-of-two (PoT) quantization is a general tool to counteract this difficulty. Albeit previous works on PoT quantization can be efficiently dequantized on CPUs using fixed-point addition, it showed less effectiveness on GPUs. The reason is entanglement of the sign bit and sequential bit manipulations needed for dequantization. We propose a novel POT quantization framework for LLM weights that (i) outperforms state-of-the-art accuracy in extremely low-precision number formats, and (ii) enables faster inference through more efficient dequantization. To maintain the accuracy of the quantized model, we introduce a two-step post-training algorithm: (i) initialize the quantization scales with a robust starting point, and (ii) refine these scales using a minimal calibration set. The performance of our PoT post-training algorithm surpasses the current state-of-the-art in integer quantization, particularly at low precisions such as 2- and 3-bit formats. Our PoT quantization accelerates the dequantization step required for the floating point inference and leads to $3.67\times$ speed up on a NVIDIA V100, and $1.63\times$ on a NVIDIA RTX 4090, compared to uniform integer dequantization.

PoTPTQ: A Two-step Power-of-Two Post-training for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理