Optimal Post-Training Quantization Scales and Where to Find Them
作者: Juan Amboage, Pablo Monteagudo-Lago, Ian Colbert, Giuseppe Franco, Nicholas Fraser
分类: cs.LG, cs.AI
发布日期: 2026-06-09
💡 一句话要点
提出PiSO算法以优化后训练量化的权重缩放因子
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练量化 模型压缩 权重缩放 量化优化 深度学习
📋 核心要点
- 现有的后训练量化方法通常依赖简单的启发式选择缩放因子,缺乏精确性和效率。
- 本文提出的PiSO算法通过使用校准数据,精确计算最佳的通道权重缩放因子,显著提高了量化效果。
- 实验结果显示,在Llama和Qwen模型上,使用PiSO算法后,困惑度和零-shot准确性均有显著提升,尤其在低位宽情况下效果更佳。
📝 摘要(中文)
后训练量化(PTQ)通过将权重映射到低位表示来压缩大型语言模型。通常,定义量化网格的缩放因子是通过简单的数据无关启发式方法选择的。本文提出了PiSO(分段缩放优化)算法,利用校准数据精确高效地计算最佳通道权重缩放因子。PiSO将缩放搜索空间划分为有限多个区间,在这些区间上目标函数具有封闭形式的最小化解。我们将PiSO扩展到组量化,并提出有效的策略将缩放优化与误差校正交替进行。在多个模型大小和目标权重位宽的Llama和Qwen模型上的实验表明,困惑度和下游零-shot准确性均有一致改善,尤其在目标位宽缩小和量化变得更具挑战性时,收益更为显著。
🔬 方法详解
问题定义:本文旨在解决后训练量化中缩放因子的选择问题,现有方法通常使用简单的启发式方法,导致量化效果不佳。
核心思路:提出PiSO算法,通过校准数据精确计算最佳通道权重缩放因子,优化量化过程,提升模型性能。
技术框架:PiSO算法将缩放搜索空间划分为有限多个区间,在每个区间内使用封闭形式的最小化解进行优化,支持组量化和误差校正的交替进行。
关键创新:最重要的创新在于通过精确的通道权重缩放因子计算,显著提高了量化模型的准确性和效率,与传统的启发式方法相比具有本质区别。
关键设计:算法设计中包括了对缩放因子的分段优化、误差校正策略的有效结合,以及在不同模型和位宽下的适应性调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用PiSO算法的模型在困惑度和零-shot准确性上均有显著提升,尤其在目标位宽缩小时,困惑度降低了X%,准确性提高了Y%。与基线模型相比,PiSO算法的效果更为突出,展示了其在量化过程中的优势。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的压缩和优化,尤其在资源受限的环境中,如移动设备和边缘计算。通过提高量化模型的性能,能够在实际应用中实现更高效的推理和更低的计算成本,具有重要的实际价值和未来影响。
📄 摘要(原文)
Post-training quantization (PTQ) compresses large language models by mapping weights to low-bit representations. The scaling factor that defines the quantization grid is typically chosen using simple, data-free heuristics. In this work, we present PiSO (Piecewise Scale Optimization), an algorithm that leverages calibration data to compute the optimal channel-wise weight scales exactly and efficiently under round-to-nearest quantization. PiSO partitions the scale search space into finitely many intervals on which the objective admits a closed-form minimizer. We extend PiSO to group-wise quantization via principled heuristics and propose effective strategies for interleaving scale optimization with error correction. Experiments on Llama and Qwen models across multiple model sizes and target weight bit-widths demonstrate consistent improvements in perplexity and downstream zero-shot accuracy, both standalone and combined with error correction. In particular, we observe increased benefits as the target bit-width narrows and quantization becomes more challenging.