BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

📄 arXiv: 2603.16590v1 📥 PDF

作者: Ji-Fu Li, Manyi Zhang, Xiaobo Xia, Han Bao, Haoli Bai, Zhenhua Dong, Xianzhi Yu

分类: cs.CL, cs.AI

发布日期: 2026-03-17

备注: 30 pages, 13 figures, 7 tables


💡 一句话要点

BATQuant:提出一种基于可学习分块优化的、对异常值鲁棒的MXFP4量化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化 训练后量化 MXFP4 多模态大模型 大语言模型 异常值鲁棒性 分块优化

📋 核心要点

  1. 现有基于旋转的PTQ方法在MXFP4量化中性能大幅下降,原因是全局正交旋转导致异常值能量跨块传播,破坏局部缩放。
  2. BATQuant通过限制变换与MXFP粒度对齐,防止跨块异常值传播,并放宽正交性约束以优化分布形状,从而解决上述问题。
  3. 实验表明,BATQuant在W4A4KV16配置下,在多模态基准测试中恢复了高达96.43%的完整精度性能,显著优于现有方法。

📝 摘要(中文)

微缩放浮点(MXFP)格式已成为在现代加速器架构上部署多模态大型语言模型(MLLM)和大型语言模型(LLM)的一种有前景的标准。然而,现有的训练后量化(PTQ)方法,特别是为整数格式设计的基于旋转的技术,在应用于MXFP4时会遭受严重的性能崩溃。最近的研究将这种失败归因于一种根本的格式不匹配:全局正交旋转会无意中将异常值能量转移到量化块中,从而诱导新的异常值,破坏局部块状缩放,同时经常创建双峰激活分布,从而无法充分利用有限的量化范围。为了解决这些问题,我们提出了BATQuant(块状仿射变换),它限制变换与MXFP粒度对齐,以防止跨块异常值传播,同时放宽正交性约束以优化分布整形。为了确保参数效率,我们引入了全局和私有Kronecker(GPK)分解,以有效地减少存储和运行时开销,并结合块状可学习剪裁来抑制残余异常值。在MLLM和LLM上的大量实验表明,BATQuant在激进的W4A4KV16配置下建立了新的最先进的结果,在多模态基准测试中恢复了高达96.43%的完整精度性能,并且在各种任务中明显优于现有方法。

🔬 方法详解

问题定义:论文旨在解决将现有训练后量化(PTQ)方法应用于MXFP4格式时,性能显著下降的问题。特别是,基于旋转的PTQ方法,由于其全局正交旋转的特性,会导致异常值能量在量化块之间传播,从而产生新的异常值,破坏局部块状缩放,并导致激活分布呈现双峰形态,无法充分利用量化范围。

核心思路:BATQuant的核心思路是设计一种与MXFP格式粒度对齐的量化方法,以防止跨块的异常值传播。通过限制变换操作在块内进行,并放宽正交性约束,从而优化激活分布的形状,使其更适合量化范围。此外,还引入了可学习的剪裁操作来进一步抑制残余的异常值。

技术框架:BATQuant包含以下几个主要模块:1) 块状仿射变换(BAT),用于在每个量化块内进行仿射变换,以调整激活分布。2) 全局和私有Kronecker(GPK)分解,用于减少仿射变换的参数量,降低存储和计算开销。3) 块状可学习剪裁,用于抑制量化后的残余异常值。整个流程是在训练后进行的,不需要额外的训练数据。

关键创新:BATQuant的关键创新在于其块状仿射变换的设计,它与MXFP格式的粒度对齐,避免了全局旋转导致的异常值传播问题。同时,放宽正交性约束,允许更灵活的分布整形,从而更好地利用量化范围。GPK分解和可学习剪裁进一步提高了参数效率和量化精度。

关键设计:块状仿射变换的具体实现是使用一个可学习的仿射变换矩阵对每个量化块的激活值进行变换。GPK分解将仿射变换矩阵分解为全局和私有两部分,从而减少参数量。可学习剪裁使用一个可学习的阈值来限制激活值的范围,从而抑制异常值。损失函数的设计目标是最小化量化误差,同时保持激活分布的形状。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BATQuant在MLLM和LLM上进行了广泛的实验,结果表明,在激进的W4A4KV16配置下,BATQuant在多模态基准测试中恢复了高达96.43%的完整精度性能,并且在各种任务中明显优于现有方法。这些结果表明,BATQuant是一种有效的MXFP4量化方法,能够显著提高模型的压缩率和推理速度,同时保持较高的精度。

🎯 应用场景

BATQuant技术可广泛应用于多模态大型语言模型(MLLM)和大型语言模型(LLM)的部署,尤其是在资源受限的边缘设备上。通过降低模型大小和计算复杂度,BATQuant能够使这些模型在移动设备、嵌入式系统等平台上高效运行,从而推动人工智能在各个领域的应用,例如智能助手、自动驾驶、智能家居等。

📄 摘要(原文)

Microscaling floating-point (MXFP) formats have emerged as a promising standard for deploying Multi-modal Large Language Models (MLLMs) and Large Language Models (LLMs) on modern accelerator architectures. However, existing Post-Training Quantization (PTQ) methods, particularly rotation-based techniques designed for integer formats, suffer from severe performance collapse when applied to MXFP4. Recent studies attribute this failure to a fundamental format mismatch: global orthogonal rotations inadvertently transfer outlier energy across quantization blocks, inducing new outliers that disrupt local block-wise scaling, while often creating bimodal activation distributions that underutilize the limited quantization range. To address these issues, we propose BATQuant (Block-wise Affine Transformation), which restricts transformations to align with MXFP granularity to prevent cross-block outlier propagation, while relaxing orthogonality constraints to optimize distribution shaping. To ensure parameter efficiency, we introduce Global and Private Kronecker (GPK) decomposition to effectively reduces storage and runtime overhead and incorporate Block-wise Learnable Clipping to suppress residual outliers. Extensive experiments on both MLLMs and LLMs demonstrate that BATQuant establishes new state-of-the-art results under aggressive W4A4KV16 configurations, recovering up to 96.43% of full-precision performance on multimodal benchmarks and clearly outperforming existing methods across diverse tasks.