MUXQ: Mixed-to-Uniform Precision MatriX Quantization via Low-Rank Outlier Decomposition

📄 arXiv: 2604.04701 📥 PDF

作者: Seoungsub Lee, In Seo Kim, Seon Wook Kim

分类: cs.LG, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出MUXQ:一种基于低秩异常分解的混合精度到均匀精度矩阵量化方法,用于解决LLM在NPU上的部署难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化 大型语言模型 低精度推理 异常值处理 边缘计算

📋 核心要点

  1. 现有LLM量化方法,如ZeroQuant等,无法有效处理输入激活中的异常值,导致硬件效率低下。
  2. MUXQ通过检测异常通道并引入辅助矩阵重新分配异常值幅度,从而缓解量化过程中的异常值问题。
  3. 实验表明,MUXQ在INT8量化下,能够保持接近FP16的精度,且计算开销适中,适用于边缘设备。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言处理任务中取得了卓越的性能,但其庞大的参数量带来了巨大的内存和计算开销。在基于NPU的设备端环境中,FP16/FP32计算效率低下,因此整数(INT)量化至关重要。然而,现有的方法,包括ZeroQuant、LLM.int8()和SmoothQuant,未能充分解决输入激活中的异常值以及相关的硬件效率问题。为了克服这些限制,我们提出了MUXQ(混合到均匀量化)。MUXQ检测输入激活中的异常通道,并引入一个小的辅助矩阵来重新分配通道间的异常值幅度,从而缓解异常值问题。这使得即使是激活异常值也可以在低精度INT级别进行量化,同时保持硬件友好的计算结构。在WikiText-2数据集上对三种规模(0.1B、0.3B和0.7B参数)的GPT-2模型进行的实验表明,MUXQ始终比朴素量化实现更低的困惑度。特别是在per-tensor量化下,MUXQ将激活和权重都量化为INT8,同时保持接近FP16的精度。MUXQ仅需适度的计算开销,即可实现稳定的低精度推理,并且可以轻松地与其他量化技术结合使用。这些结果表明,MUXQ为边缘设备上高效且准确的LLM推理提供了一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在资源受限的设备(如NPU)上部署时,由于模型参数量巨大导致内存和计算开销过高的问题。现有的量化方法,如ZeroQuant、LLM.int8()和SmoothQuant,虽然尝试将模型权重和激活量化到较低精度(如INT8),但未能有效处理输入激活中的异常值,这些异常值会显著降低量化模型的精度,并导致硬件效率低下。

核心思路:MUXQ的核心思路是通过一种混合精度到均匀精度的量化策略,来缓解激活值中的异常值问题。具体来说,它首先检测输入激活中的异常通道,然后引入一个小的辅助矩阵,该矩阵的作用是将这些异常通道中的激活值重新分配到其他通道,从而降低异常值的幅度。通过这种方式,MUXQ能够使得激活值更加均匀,从而可以使用较低的精度进行量化,同时保持较高的模型精度。

技术框架:MUXQ的整体框架可以分为以下几个主要步骤:1) 异常通道检测:使用某种指标(例如,基于统计信息的阈值)来识别输入激活中的异常通道。2) 辅助矩阵生成:针对检测到的异常通道,生成一个小的辅助矩阵,用于重新分配这些通道中的激活值。3) 激活值重分配:使用辅助矩阵对激活值进行重分配,降低异常通道中的激活值幅度。4) 量化:将重分配后的激活值和模型权重进行量化,通常量化到INT8精度。5) 推理:使用量化后的模型进行推理。

关键创新:MUXQ的关键创新在于其混合精度到均匀精度的量化策略,以及引入辅助矩阵来重新分配激活值。与现有方法相比,MUXQ能够更有效地处理激活值中的异常值,从而在较低精度下保持较高的模型精度。此外,MUXQ的设计考虑了硬件友好性,使得量化后的模型能够在NPU等设备上高效运行。

关键设计:MUXQ的关键设计包括:1) 异常通道检测指标:如何准确地检测异常通道是至关重要的,论文可能使用了基于统计信息的阈值方法,例如,计算每个通道的激活值范围或标准差,并将超过阈值的通道视为异常通道。2) 辅助矩阵的生成方法:辅助矩阵的设计需要考虑如何有效地重新分配激活值,同时保持计算开销较低。论文可能使用了低秩分解等技术来生成辅助矩阵。3) 量化策略:论文可能使用了per-tensor或per-channel的量化策略,并针对激活值和权重采用了不同的量化参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MUXQ在GPT-2模型(0.1B、0.3B和0.7B参数)上,使用WikiText-2数据集进行评估时,始终比朴素量化方法实现了更低的困惑度。特别是在per-tensor量化下,MUXQ将激活和权重都量化为INT8,同时保持了接近FP16的精度。这些结果表明,MUXQ能够在显著降低模型大小和计算复杂度的同时,保持较高的模型性能。

🎯 应用场景

MUXQ具有广泛的应用前景,尤其是在资源受限的边缘设备上部署大型语言模型。例如,它可以应用于智能手机、嵌入式系统和物联网设备等,使得这些设备能够运行复杂的自然语言处理任务,如文本生成、机器翻译和对话系统。通过降低模型的大小和计算复杂度,MUXQ可以显著提高这些设备的能效和响应速度,从而改善用户体验。

📄 摘要(原文)

Large language models (LLMs) have achieved outstanding performance across a wide range of natural language processing tasks, but their enormous parameter counts impose ubstantial memory and computational overheads. This challenge is particularly critical in NPU-based on-device environments, where FP16/FP32 computation is inefficient and integer (INT) quantization is therefore essential. However, existing methods, including ZeroQuant, LLM.int8(), and SmoothQuant, do not fully address input-activation outliers and the associated hardware inefficiencies. To overcome these limitations, we propose MUXQ (Mixed-to-Uniform Quantization). MUXQ detects outlier channels in input activations and introduces a small auxiliary matrix that redistributes outlier magnitudes across channels, thereby alleviating the outlier problem. This enables even activation outliers to be quantized at low-precision INT levels while preserving a hardware-friendly computation structure. Experiments on GPT-2 models at three scales (0.1B, 0.3B, and 0.7B parameters) using the WikiText-2 dataset show that MUXQ consistently achieves lower perplexity than naive quantization. In particular, under per-tensor quantization, MUXQ quantizes both activations and weights to INT8 while maintaining accuracy close to that of FP16. With only modest computational overhead, MUXQ enables stable low-precision inference and can be readily combined with other quantization techniques. These results suggest that MUXQ provides a promising direction for efficient and accurate LLM inference on edge devices.