SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

📄 arXiv: 2512.04746v1 📥 PDF

作者: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen

分类: cs.CL, cs.AI

发布日期: 2025-12-04

🔗 代码/项目: GITHUB


💡 一句话要点

SignRoundV2:弥合LLM极低比特后训练量化中的性能差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 低比特量化 大型语言模型 模型压缩 模型部署

📋 核心要点

  1. 现有LLM的极低比特量化面临性能显著下降的挑战,尤其是在2比特和4比特时,严重影响模型部署。
  2. SignRoundV2通过结合梯度信息与量化偏差的敏感度指标,以及轻量级量化尺度预调优搜索,有效提升极低比特量化性能。
  3. 实验表明,SignRoundV2在4-5比特时达到生产级性能,且在2比特时也表现出色,显著缩小了与全精度模型的差距。

📝 摘要(中文)

极低比特量化对于高效部署大型语言模型(LLMs)至关重要,但它通常会导致严重的性能下降,尤其是在2比特甚至4比特(例如,MXFP4)时。我们提出了SignRoundV2,这是一个后训练量化框架,即使在没有混合精度的情况下也非常有效。SignRoundV2引入了(1)一种快速敏感度指标,它结合了梯度信息和量化引起的偏差,以指导逐层比特分配;(2)一种轻量级的预调优搜索量化尺度的方法,以改善极低比特量化。这些组件使SignRoundV2能够缩小与全精度模型之间的差距。大量的实验表明,我们的方法保持了LLM的竞争精度,在4-5比特时实现了生产级的性能(约1%的方差),甚至在2比特时也取得了强大的结果。该实现可在https://github.com/intel/auto-round获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在极低比特(如2比特和4比特)后训练量化过程中出现的严重性能下降问题。现有的量化方法在极低比特下精度损失较大,难以满足实际部署需求。

核心思路:SignRoundV2的核心思路是通过更精细的比特分配和量化尺度优化,来最小化量化过程中的信息损失。它利用梯度信息和量化偏差来评估每一层的敏感度,并据此进行比特分配。同时,通过轻量级的搜索策略来寻找最佳的量化尺度。

技术框架:SignRoundV2主要包含两个核心模块:1) 快速敏感度指标计算模块,用于评估每一层对量化的敏感程度,并指导比特分配;2) 量化尺度预调优搜索模块,用于寻找最佳的量化尺度,以进一步提升量化性能。整个流程是在后训练量化的框架下进行的,无需重新训练模型。

关键创新:SignRoundV2的关键创新在于其敏感度指标的计算方式和量化尺度的搜索策略。传统的敏感度指标可能无法准确反映极低比特量化下的性能影响,而SignRoundV2结合了梯度信息和量化偏差,能够更准确地评估每一层的敏感度。此外,轻量级的预调优搜索策略能够在较小的计算代价下找到更优的量化尺度。

关键设计:敏感度指标结合了梯度信息和量化引起的偏差,具体计算公式未知(论文未明确给出)。量化尺度预调优搜索采用了一种轻量级的搜索策略,具体搜索算法未知(论文未明确给出)。比特分配策略基于敏感度指标,将更多的比特分配给对量化更敏感的层。损失函数未知(论文未明确给出)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SignRoundV2在LLM的极低比特量化上取得了显著成果,在4-5比特时实现了生产级的性能(约1%的方差),甚至在2比特时也取得了强大的结果。这些结果表明,SignRoundV2能够有效弥合极低比特量化带来的性能差距,为LLM的部署提供了更高效的解决方案。

🎯 应用场景

SignRoundV2可应用于各种需要高效部署大型语言模型的场景,例如移动设备、边缘计算设备等资源受限的环境。通过降低模型大小和计算复杂度,SignRoundV2能够使LLMs在这些平台上运行,从而实现更广泛的应用,例如智能助手、机器翻译、文本生成等。

📄 摘要(原文)

Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.