RUQuant: Towards Refining Uniform Quantization for Large Language Models
作者: Han Liu, Haotian Gao, Changya Li, Feng Zhang, Xiaotong Zhang, Wei Wang, Hong Yu
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
RUQuant:通过优化均匀量化方案提升大语言模型压缩性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练量化 模型压缩 均匀量化 正交变换
📋 核心要点
- 现有后训练量化方法在激活量化时,由于激活分布的非均匀性,导致量化精度显著下降。
- RUQuant通过两阶段正交变换,将非均匀分布的激活映射到均匀分布,从而优化量化性能。
- 实验表明,RUQuant在W6A6量化下达到全精度准确率的99.8%,W4A4量化下达到97%,且速度快。
📝 摘要(中文)
大型语言模型(LLM)的规模和复杂性日益增加,给部署效率带来了重大挑战,尤其是在资源受限的情况下。后训练量化(PTQ)通过压缩模型而无需重新训练,成为一种实用的解决方案。现有方法主要关注权重和激活的均匀量化方案,但由于激活分布的非均匀性,常常导致显著的精度下降。本文从Lloyd-Max最优性条件出发,重新审视了激活量化问题。我们发现,核心问题在于量化区间内激活的非均匀分布,这导致Lloyd-Max准则下的最优量化点偏离区间中点。为了解决这个问题,我们提出了一种两阶段正交变换方法RUQuant。第一阶段,将激活分成块,每个块使用由Householder反射和Givens旋转构成的复合正交矩阵映射到均匀采样的目标向量。第二阶段,使用Transformer输出差异微调全局Householder反射,以进一步最小化量化误差。实验结果表明,我们的方法在不需要模型微调的情况下实现了接近最优的量化性能:对于一个13B的LLM,RUQuant在W6A6量化下达到了全精度准确率的99.8%,在W4A4量化下达到了97%,且耗时约一分钟。微调后的变体产生了更高的准确率,证明了我们方法的有效性和可扩展性。
🔬 方法详解
问题定义:论文旨在解决大语言模型后训练量化(PTQ)中,激活量化导致的精度损失问题。现有方法通常采用均匀量化,但激活值的分布通常是非均匀的,这导致均匀量化无法达到最优效果,造成显著的精度下降。
核心思路:论文的核心思路是通过正交变换,将非均匀分布的激活值映射到均匀分布,从而使得均匀量化能够更接近最优量化结果。通过两阶段的正交变换,逐步优化激活值的分布,使其更适合均匀量化。
技术框架:RUQuant方法包含两个主要阶段: 1. 块正交变换:将激活值分成若干块,对每个块进行正交变换,使其分布更接近均匀分布。该变换由多个Householder反射和Givens旋转构成。 2. 全局Householder反射微调:在第一阶段的基础上,使用一个全局的Householder反射进一步调整激活值的分布,并通过最小化Transformer输出差异来微调该反射。
关键创新:RUQuant的关键创新在于: 1. 理论基础:基于Lloyd-Max最优性条件,从理论上分析了激活量化精度损失的原因,并提出了相应的解决方案。 2. 两阶段正交变换:通过两阶段的正交变换,逐步优化激活值的分布,使其更适合均匀量化,从而显著提升量化精度。 3. 快速高效:该方法无需模型微调即可达到接近最优的量化性能,且计算速度快。
关键设计: 1. 块大小的选择:块大小的选择会影响正交变换的效果,需要根据实际情况进行调整。 2. Householder反射和Givens旋转的参数化:论文采用了特定的参数化方法来构建Householder反射和Givens旋转,以保证变换的正交性。 3. 损失函数:在全局Householder反射微调阶段,采用了Transformer输出差异作为损失函数,以指导反射的优化。
🖼️ 关键图片
📊 实验亮点
RUQuant在13B LLM上取得了显著的量化效果。在无需微调的情况下,W6A6量化达到了全精度准确率的99.8%,W4A4量化达到了97%,且量化过程仅需约一分钟。微调后的RUQuant变体进一步提升了量化精度,证明了该方法的有效性和可扩展性。这些结果表明,RUQuant是一种高效且实用的LLM量化方法。
🎯 应用场景
RUQuant方法可应用于大语言模型的压缩和部署,尤其是在资源受限的场景下,如移动设备、边缘计算等。通过降低模型大小和计算复杂度,可以实现更高效的模型推理,从而提升用户体验,并降低部署成本。该方法还有助于推动大语言模型在更广泛领域的应用。
📄 摘要(原文)
The increasing size and complexity of large language models (LLMs) have raised significant challenges in deployment efficiency, particularly under resource constraints. Post-training quantization (PTQ) has emerged as a practical solution by compressing models without requiring retraining. While existing methods focus on uniform quantization schemes for both weights and activations, they often suffer from substantial accuracy degradation due to the non-uniform nature of activation distributions. In this work, we revisit the activation quantization problem from a theoretical perspective grounded in the Lloyd-Max optimality conditions. We identify the core issue as the non-uniform distribution of activations within the quantization interval, which causes the optimal quantization point under the Lloyd-Max criterion to shift away from the midpoint of the interval. To address this issue, we propose a two-stage orthogonal transformation method, RUQuant. In the first stage, activations are divided into blocks. Each block is mapped to uniformly sampled target vectors using composite orthogonal matrices, which are constructed from Householder reflections and Givens rotations. In the second stage, a global Householder reflection is fine-tuned to further minimize quantization error using Transformer output discrepancies. Empirical results show that our method achieves near-optimal quantization performance without requiring model fine-tuning: RUQuant achieves 99.8% of full-precision accuracy with W6A6 and 97% with W4A4 quantization for a 13B LLM, within approximately one minute. A fine-tuned variant yields even higher accuracy, demonstrating the effectiveness and scalability of our approach.