ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs

📄 arXiv: 2601.07475v1 📥 PDF

作者: Haoqian Meng, Yilun Luo, Yafei Zhao, Wenyuan Liu, Peng Zhang, Xindian Ma

分类: cs.LG, cs.AI

发布日期: 2026-01-12

🔗 代码/项目: GITHUB


💡 一句话要点

ARCQuant:通过增强残差通道提升LLM的NVFP4量化性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM量化 NVFP4 训练后量化 残差量化 模型加速 低精度推理 GEMM优化

📋 核心要点

  1. 现有PTQ方法在NVFP4量化中面临挑战,如精度损失和硬件兼容性问题。
  2. ARCQuant通过增强残差通道,在保持硬件统一性的前提下,补偿量化误差。
  3. 实验表明,ARCQuant在精度上与全精度基线相当,并在GPU上实现了显著加速。

📝 摘要(中文)

随着NVFP4等细粒度数值格式的出现,高效的大型语言模型(LLM)推理迎来了新的机遇。然而,现有的训练后量化(PTQ)策略难以适应这些格式:基于旋转的方法会损害细粒度块隔离;平滑技术难以应对显著的4位量化误差;混合精度方法常常与统一精度计算的硬件约束相冲突。为了解决这些挑战,我们提出了ARCQuant,一个通过增强残差通道来提升NVFP4性能的框架。与损害块隔离或硬件统一性的方法不同,ARCQuant通过使用量化的残差通道增强激活矩阵,保持严格统一的NVFP4格式。这种设计将误差补偿过程直接集成到矩阵降维中,从而可以使用标准的、高度优化的GEMM内核,且开销极小。理论分析证实,我们的双阶段NVFP4量化的最坏情况误差界限与标准8位格式(如MXFP8)相当。在LLaMA和Qwen模型上的大量实验表明,ARCQuant实现了最先进的精度,在困惑度和下游任务中与全精度基线相当。此外,在RTX 5090和RTX PRO 6000 GPU上的部署证实了实际效益,实现了高达3倍于FP16的速度提升。我们的代码可在https://github.com/actypedef/ARCQuant 获取。

🔬 方法详解

问题定义:论文旨在解决将大型语言模型(LLMs)量化为NVFP4格式时遇到的精度损失问题。现有的PTQ方法,如基于旋转的方法、平滑技术和混合精度方法,在应用于NVFP4时存在局限性,要么损害了细粒度块的隔离性,要么难以处理显著的4位量化误差,要么与硬件的统一精度计算约束相冲突。这些问题导致量化后的模型性能显著下降。

核心思路:ARCQuant的核心思路是通过增强残差通道来补偿NVFP4量化带来的误差。具体来说,该方法在激活矩阵中引入量化的残差通道,将误差补偿过程集成到矩阵降维中。这样,即使使用低精度的NVFP4格式,也能有效地减少量化误差,从而提高模型的精度。同时,该方法保持了硬件的统一精度要求,避免了混合精度方法带来的额外开销。

技术框架:ARCQuant框架主要包含两个阶段:首先,对原始的激活矩阵进行NVFP4量化,得到量化后的矩阵。然后,计算量化误差,并将该误差量化为残差通道,添加到量化后的激活矩阵中。在推理阶段,使用标准的GEMM内核对增强后的激活矩阵进行计算。整个过程无需修改现有的硬件架构,并且可以利用高度优化的GEMM库。

关键创新:ARCQuant的关键创新在于使用增强残差通道来补偿NVFP4量化误差。与传统的量化方法不同,ARCQuant不是直接对权重或激活值进行平滑或调整,而是通过引入额外的残差信息来修正量化带来的偏差。这种方法能够在保持硬件兼容性的前提下,有效地提高量化模型的精度。

关键设计:ARCQuant的关键设计包括:1) 双阶段量化:首先进行NVFP4量化,然后量化残差。2) 残差通道的添加:将量化的残差信息添加到激活矩阵的降维维度,以便利用标准的GEMM内核进行计算。3) 误差界限分析:论文提供了理论分析,证明ARCQuant的最坏情况误差界限与MXFP8等标准8位格式相当。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARCQuant在LLaMA和Qwen模型上取得了显著的性能提升。实验结果表明,ARCQuant在困惑度和下游任务中达到了与全精度基线相当的精度。此外,在RTX 5090和RTX PRO 6000 GPU上的部署实现了高达3倍于FP16的速度提升,验证了ARCQuant在实际应用中的有效性。

🎯 应用场景

ARCQuant可应用于各种需要高效LLM推理的场景,如移动设备、边缘计算和云计算平台。通过降低模型大小和计算复杂度,ARCQuant能够显著提高LLM的推理速度和能效,从而使得LLM能够在资源受限的环境中部署和应用。该技术还有助于降低LLM的部署成本,加速LLM在各个行业的普及。

📄 摘要(原文)

The emergence of fine-grained numerical formats like NVFP4 presents new opportunities for efficient Large Language Model (LLM) inference. However, it is difficult to adapt existing Post-Training Quantization (PTQ) strategies to these formats: rotation-based methods compromise fine-grained block isolation; smoothing techniques struggle with significant 4-bit quantization errors; and mixed-precision approaches often conflict with hardware constraints on unified-precision computation. To address these challenges, we propose ARCQuant, a framework that boosts NVFP4 performance via Augmented Residual Channels. Distinct from methods that compromise block isolation or hardware uniformity, ARCQuant maintains a strictly unified NVFP4 format by augmenting the activation matrix with quantized residual channels. This design integrates the error compensation process directly into the matrix reduction dimension, enabling the use of standard, highly optimized GEMM kernels with minimal overhead. Theoretical analysis confirms that the worst-case error bound of our dual-stage NVFP4 quantization is comparable to that of standard 8-bit formats such as MXFP8. Extensive experiments on LLaMA and Qwen models demonstrate that ARCQuant achieves state-of-the-art accuracy, comparable to full-precision baselines in perplexity and downstream tasks. Furthermore, deployment on RTX 5090 and RTX PRO 6000 GPUs confirms practical benefits, achieving up to 3x speedup over FP16. Our code is available at https://github.com/actypedef/ARCQuant .