OSC: Hardware Efficient W4A4 Quantization via Outlier Separation in Channel Dimension
作者: Zhiyuan Zhang, Yanzhao Li, Zhiqiang Zou, Bai Du, Yupeng Sun, Hui Dong, Hui Wang
分类: cs.LG, cs.AI
发布日期: 2026-04-14
💡 一句话要点
提出OSC,通过通道维度异常值分离实现硬件高效的W4A4量化
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低比特量化 大语言模型 异常值抑制 硬件加速 通道维度 双路径计算 结构化聚类
📋 核心要点
- 低比特量化虽能加速大模型推理,但激活异常值导致精度显著下降,现有方法难以兼顾精度和效率。
- OSC通过观察到异常值在通道维度上的结构化聚类现象,设计双路径计算,对异常值进行特殊处理。
- 实验表明,OSC在Qwen3模型上实现了精度损失可控的同时,显著提升了推理速度,硬件友好性高。
📝 摘要(中文)
为了实现大语言模型的高吞吐量部署,4比特量化至关重要。然而,激活异常值通常由于低比特格式的受限动态范围而导致显著的精度下降。本文系统地研究了异常值的空间分布,并证明了一种token持久的结构化聚类效应,即高幅度异常值始终占据跨token的固定通道。基于此,我们提出了OSC,一种硬件高效的异常值抑制框架。在推理过程中,OSC执行双路径计算,包括一个低精度4比特通用矩阵乘法(GEMM)路径和一个高精度16比特分支GEMM路径。具体来说,OSC使用离线分组策略来识别异常值所在的通道,然后执行结构化的子张量提取,在线将这些分散的激活通道合并成一个紧凑的密集张量。这种机制通过规则化和高吞吐量的GEMM操作实现异常值保护,与现代4比特微缩放硬件无缝契合。此外,对于W2输入中异常值聚类不太明显的情况,我们集成了FP8回退策略。在Qwen3-8B和Qwen3-30B上的评估表明,平均精度下降分别限制在2.19和1.12个点。值得注意的是,OSC具有高度的硬件友好性,在现代AI加速器上实现了相对于W8A8 GEMM基线1.78倍的峰值加速。
🔬 方法详解
问题定义:论文旨在解决大语言模型低比特量化(特别是W4A4)过程中,激活异常值导致的精度显著下降问题。现有方法要么精度损失大,要么硬件效率低,无法充分利用低比特量化的加速优势。
核心思路:论文的核心思路是观察到激活异常值在通道维度上存在结构化的聚类现象,即某些通道总是更容易出现异常值。因此,可以针对这些通道进行特殊处理,例如使用更高精度计算,从而在保证精度的同时,尽可能地使用低比特量化加速计算。
技术框架:OSC框架包含以下主要步骤:1) 离线分组:分析训练数据,识别出容易出现异常值的通道组。2) 双路径计算:在推理时,对于非异常值通道,使用低精度(4比特)GEMM进行计算;对于异常值通道,提取这些通道的激活值,使用高精度(16比特)GEMM进行计算。3) 结果融合:将两个路径的计算结果合并,得到最终的输出。对于W2输入,如果异常值聚类不明显,则回退到FP8计算。
关键创新:OSC的关键创新在于:1) 发现了激活异常值在通道维度上的结构化聚类现象。2) 提出了双路径计算框架,可以针对性地处理异常值,从而在精度和效率之间取得平衡。3) 采用结构化子张量提取,将分散的异常值通道合并成紧凑的张量,便于硬件加速。
关键设计:OSC的关键设计包括:1) 离线分组策略:如何有效地识别异常值通道组?论文可能采用了基于统计的方法,例如计算每个通道的激活值分布,并根据分布的尾部来判断是否为异常值通道。2) 高精度分支的选择:选择16比特作为高精度分支,可能是考虑到精度和计算开销之间的平衡。3) FP8回退策略:在W2输入中,如果异常值聚类不明显,则回退到FP8计算,可能是为了避免过度依赖高精度计算,从而影响整体的硬件效率。
🖼️ 关键图片
📊 实验亮点
OSC在Qwen3-8B和Qwen3-30B模型上进行了评估,结果表明,平均精度下降分别限制在2.19和1.12个点。更重要的是,OSC在现代AI加速器上实现了相对于W8A8 GEMM基线1.78倍的峰值加速,展示了其优异的硬件效率。
🎯 应用场景
OSC框架可应用于大语言模型在资源受限设备上的部署,例如移动设备、边缘服务器等。通过降低计算精度和减少内存占用,OSC能够加速模型推理,提高用户体验,并降低部署成本。该研究对于推动大语言模型在实际场景中的应用具有重要意义。
📄 摘要(原文)
While 4-bit quantization is essential for high-throughput deployment of Large Language Models, activation outliers often lead to significant accuracy degradation due to the restricted dynamic range of low-bit formats. In this paper, we systematically investigate the spatial distribution of outliers and demonstrate a token-persistent structural clustering effect, where high-magnitude outliers consistently occupy fixed channels across tokens. Building on this insight, we propose OSC, a hardware-efficient framework for outlier suppression. During inference, OSC executes a dual-path computation consisting of a low-precision 4-bit General Matrix Multiplication (GEMM) path and a high-precision 16-bit branch GEMM path. Specifically, OSC uses an offline group-wise strategy to identify the channels where outliers are located and then performs structured sub-tensor extraction to coalesce these scattered activation channels into a compact dense tensor online. This mechanism implements outlier protection through regularized and high-throughput GEMM operations, achieving a seamless fit with modern 4-bit micro-scaling hardware. Furthermore, for the inputs of W2 where outlier clustering is less pronounced, we integrate a fallback strategy to FP8. Evaluation on Qwen3-8B and Qwen3-30B restricts the average accuracy drop to 2.19 and 1.12 points, respectively. Notably, OSC is highly hardware-friendly, achieving a peak speedup of 1.78x over the W8A8 GEMM baseline on a modern AI accelerator.