SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization

📄 arXiv: 2605.12245v1 📥 PDF

作者: Chengzhu Bao, Xianglong Yan, Zhiteng Li, Guangshuo Qin, Guanghua Yu, Yulun Zhang

分类: cs.LG

发布日期: 2026-05-12

🔗 代码/项目: GITHUB


💡 一句话要点

SOAR:面向NVFP4量化的尺度优化,实现更精确的模型重建

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化 NVFP4 大语言模型 模型压缩 训练后量化 尺度优化 模型重建

📋 核心要点

  1. 现有NVFP4量化方法在尺度选择上不够灵活,且量化和反量化尺度处理耦合,导致性能受限。
  2. SOAR通过闭式联合尺度优化(CJSO)和解耦尺度搜索(DSS)来优化量化尺度,提升模型重建精度。
  3. 实验证明,SOAR在多个大语言模型上优于现有NVFP4量化基线,实现了更高的精度且无额外硬件开销。

📝 摘要(中文)

NVFP4作为一种高效的4比特微尺度格式,凭借其卓越的数值保真度和原生硬件支持,近年来在大语言模型(LLM)领域崭露头角。然而,现有方法由于尺度选择不够灵活以及量化和反量化尺度处理的耦合性,往往导致次优性能。为了解决这些问题,我们提出了一种名为“精确重建尺度优化”(SOAR)的全新训练后量化框架,旨在提高NVFP4量化的准确性。SOAR的核心在于闭式联合尺度优化(CJSO),它通过从重建误差最小化推导出的解析解,联合优化全局和分块尺度。此外,SOAR还结合了解耦尺度搜索(DSS)。DSS将高精度量化尺度与其受约束的反量化对应尺度解耦,并执行离散搜索,以减轻尺度量化带来的精度损失。在多个LLM上的大量实验表明,我们的方法始终优于现有的NVFP4量化基线,在相同的内存占用下实现了卓越的精度,且无需额外的硬件开销。

🔬 方法详解

问题定义:论文旨在解决NVFP4量化中由于尺度选择不灵活以及量化和反量化尺度耦合处理导致的精度损失问题。现有方法未能充分利用NVFP4的潜力,导致量化后的模型性能下降,限制了其在资源受限场景下的应用。

核心思路:论文的核心思路是通过解耦量化和反量化尺度,并采用联合优化策略,从而更精确地控制量化过程中的信息损失。通过最小化重建误差来确定最佳的量化和反量化尺度,从而提高量化模型的精度。

技术框架:SOAR框架主要包含两个核心模块:闭式联合尺度优化(CJSO)和解耦尺度搜索(DSS)。CJSO通过解析解联合优化全局和分块尺度,而DSS则将高精度量化尺度与其受约束的反量化对应尺度解耦,并通过离散搜索进一步优化反量化尺度。整个流程是在训练后进行的,不需要重新训练模型。

关键创新:最重要的创新点在于CJSO和DSS的结合。CJSO提供了一个高效的尺度优化方法,而DSS则进一步提升了反量化尺度的精度。通过解耦量化和反量化尺度,SOAR能够更灵活地控制量化过程,从而实现更高的精度。

关键设计:CJSO的关键在于推导出重建误差最小化的解析解,从而避免了迭代优化过程。DSS的关键在于设计合适的搜索空间和搜索策略,以在计算复杂度和精度之间取得平衡。论文中具体采用了离散搜索方法,并在一定范围内搜索最佳的反量化尺度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SOAR在多个大语言模型上显著优于现有的NVFP4量化基线。在相同的内存占用下,SOAR能够实现更高的精度,并且不需要额外的硬件开销。具体性能提升数据需要在论文中查找,但总体而言,SOAR提供了一种更有效的NVFP4量化方法。

🎯 应用场景

SOAR方法可广泛应用于大语言模型的压缩和部署,尤其是在资源受限的边缘设备上。通过提高NVFP4量化的精度,SOAR能够降低模型大小和计算复杂度,从而使大语言模型能够在移动设备、嵌入式系统等平台上高效运行。这对于推动人工智能在各个领域的应用具有重要意义。

📄 摘要(原文)

NVFP4 has recently emerged as an efficient 4-bit microscaling format for large language models (LLMs), offering superior numerical fidelity with native hardware support. However, existing methods often yield suboptimal performance due to inflexible scale selection and the coupled treatment of quantization and dequantization scales. To address these issues, we propose Scale Optimization for Accurate Reconstruction (SOAR), a novel post-training quantization framework that improves the accuracy of NVFP4 quantization. At its core, SOAR features Closed-form Joint Scale Optimization (CJSO), which jointly optimizes global and block-wise scales via analytical solutions derived from reconstruction error minimization. Furthermore, it incorporates Decoupled Scale Search (DSS). DSS decouples the high-precision quantization scale from its constrained dequantization counterpart, and performs discrete search to mitigate precision loss from scale quantization. Extensive experiments across multiple LLMs show that our method consistently outperforms existing NVFP4 quantization baselines, achieving superior accuracy under the same memory footprint with no additional hardware overhead. The code and models will be available at https://github.com/steven-bao1/SOAR.