MUXQ: Mixed-to-Uniform Precision MatriX Quantization via Low-Rank Outlier Decomposition

作者: Seoungsub Lee, In Seo Kim, Seon Wook Kim

分类: cs.LG, cs.AI

发布日期: 2026-04-07

💡 一句话要点

提出MUXQ：一种基于低秩异常分解的混合精度到均匀精度矩阵量化方法，用于解决LLM在NPU上的部署难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量化 大型语言模型 低精度推理 异常值处理 边缘计算

📋 核心要点

现有LLM量化方法，如ZeroQuant等，无法有效处理输入激活中的异常值，导致硬件效率低下。
MUXQ通过检测异常通道并引入辅助矩阵重新分配异常值幅度，从而缓解量化过程中的异常值问题。
实验表明，MUXQ在INT8量化下，能够保持接近FP16的精度，且计算开销适中，适用于边缘设备。

📝 摘要（中文）

大型语言模型（LLMs）在各种自然语言处理任务中取得了卓越的性能，但其庞大的参数量带来了巨大的内存和计算开销。在基于NPU的设备端环境中，FP16/FP32计算效率低下，因此整数（INT）量化至关重要。然而，现有的方法，包括ZeroQuant、LLM.int8()和SmoothQuant，未能充分解决输入激活中的异常值以及相关的硬件效率问题。为了克服这些限制，我们提出了MUXQ（混合到均匀量化）。MUXQ检测输入激活中的异常通道，并引入一个小的辅助矩阵来重新分配通道间的异常值幅度，从而缓解异常值问题。这使得即使是激活异常值也可以在低精度INT级别进行量化，同时保持硬件友好的计算结构。在WikiText-2数据集上对三种规模（0.1B、0.3B和0.7B参数）的GPT-2模型进行的实验表明，MUXQ始终比朴素量化实现更低的困惑度。特别是在per-tensor量化下，MUXQ将激活和权重都量化为INT8，同时保持接近FP16的精度。MUXQ仅需适度的计算开销，即可实现稳定的低精度推理，并且可以轻松地与其他量化技术结合使用。这些结果表明，MUXQ为边缘设备上高效且准确的LLM推理提供了一个有希望的方向。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在资源受限的设备（如NPU）上部署时，由于模型参数量巨大导致内存和计算开销过高的问题。现有的量化方法，如ZeroQuant、LLM.int8()和SmoothQuant，虽然尝试将模型权重和激活量化到较低精度（如INT8），但未能有效处理输入激活中的异常值，这些异常值会显著降低量化模型的精度，并导致硬件效率低下。

核心思路：MUXQ的核心思路是通过一种混合精度到均匀精度的量化策略，来缓解激活值中的异常值问题。具体来说，它首先检测输入激活中的异常通道，然后引入一个小的辅助矩阵，该矩阵的作用是将这些异常通道中的激活值重新分配到其他通道，从而降低异常值的幅度。通过这种方式，MUXQ能够使得激活值更加均匀，从而可以使用较低的精度进行量化，同时保持较高的模型精度。

技术框架：MUXQ的整体框架可以分为以下几个主要步骤：1) 异常通道检测：使用某种指标（例如，基于统计信息的阈值）来识别输入激活中的异常通道。2) 辅助矩阵生成：针对检测到的异常通道，生成一个小的辅助矩阵，用于重新分配这些通道中的激活值。3) 激活值重分配：使用辅助矩阵对激活值进行重分配，降低异常通道中的激活值幅度。4) 量化：将重分配后的激活值和模型权重进行量化，通常量化到INT8精度。5) 推理：使用量化后的模型进行推理。

关键创新：MUXQ的关键创新在于其混合精度到均匀精度的量化策略，以及引入辅助矩阵来重新分配激活值。与现有方法相比，MUXQ能够更有效地处理激活值中的异常值，从而在较低精度下保持较高的模型精度。此外，MUXQ的设计考虑了硬件友好性，使得量化后的模型能够在NPU等设备上高效运行。

关键设计：MUXQ的关键设计包括：1) 异常通道检测指标：如何准确地检测异常通道是至关重要的，论文可能使用了基于统计信息的阈值方法，例如，计算每个通道的激活值范围或标准差，并将超过阈值的通道视为异常通道。2) 辅助矩阵的生成方法：辅助矩阵的设计需要考虑如何有效地重新分配激活值，同时保持计算开销较低。论文可能使用了低秩分解等技术来生成辅助矩阵。3) 量化策略：论文可能使用了per-tensor或per-channel的量化策略，并针对激活值和权重采用了不同的量化参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MUXQ在GPT-2模型（0.1B、0.3B和0.7B参数）上，使用WikiText-2数据集进行评估时，始终比朴素量化方法实现了更低的困惑度。特别是在per-tensor量化下，MUXQ将激活和权重都量化为INT8，同时保持了接近FP16的精度。这些结果表明，MUXQ能够在显著降低模型大小和计算复杂度的同时，保持较高的模型性能。

🎯 应用场景

MUXQ具有广泛的应用前景，尤其是在资源受限的边缘设备上部署大型语言模型。例如，它可以应用于智能手机、嵌入式系统和物联网设备等，使得这些设备能够运行复杂的自然语言处理任务，如文本生成、机器翻译和对话系统。通过降低模型的大小和计算复杂度，MUXQ可以显著提高这些设备的能效和响应速度，从而改善用户体验。

📄 摘要（原文）

Large language models (LLMs) have achieved outstanding performance across a wide range of natural language processing tasks, but their enormous parameter counts impose ubstantial memory and computational overheads. This challenge is particularly critical in NPU-based on-device environments, where FP16/FP32 computation is inefficient and integer (INT) quantization is therefore essential. However, existing methods, including ZeroQuant, LLM.int8(), and SmoothQuant, do not fully address input-activation outliers and the associated hardware inefficiencies. To overcome these limitations, we propose MUXQ (Mixed-to-Uniform Quantization). MUXQ detects outlier channels in input activations and introduces a small auxiliary matrix that redistributes outlier magnitudes across channels, thereby alleviating the outlier problem. This enables even activation outliers to be quantized at low-precision INT levels while preserving a hardware-friendly computation structure. Experiments on GPT-2 models at three scales (0.1B, 0.3B, and 0.7B parameters) using the WikiText-2 dataset show that MUXQ consistently achieves lower perplexity than naive quantization. In particular, under per-tensor quantization, MUXQ quantizes both activations and weights to INT8 while maintaining accuracy close to that of FP16. With only modest computational overhead, MUXQ enables stable low-precision inference and can be readily combined with other quantization techniques. These results suggest that MUXQ provides a promising direction for efficient and accurate LLM inference on edge devices.

MUXQ: Mixed-to-Uniform Precision MatriX Quantization via Low-Rank Outlier Decomposition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理