OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting

📄 arXiv: 2501.13987v1 📥 PDF

作者: Xing Hu, Yuan Cheng, Dawei Yang, Zukang Xu, Zhihang Yuan, Jiangyong Yu, Chen Xu, Zhe Jiang, Sifan Zhou

分类: cs.LG, cs.AI

发布日期: 2025-01-23

备注: 10 Pages

🔗 代码/项目: GITHUB


💡 一句话要点

OSTQuant:通过正交和缩放变换优化LLM量化,提升数据分布拟合度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大型语言模型 模型压缩 正交变换 缩放变换 量化空间利用率 KL散度 低比特量化

📋 核心要点

  1. LLM量化的主要挑战是数据分布不均匀和重尾,导致量化范围扩大,精度降低。
  2. OSTQuant通过学习正交和缩放变换来优化权重和激活的分布,提升量化空间利用率。
  3. 实验表明,OSTQuant在多种LLM上优于现有方法,尤其在W4A4KV4配置下显著缩小了性能差距。

📝 摘要(中文)

后训练量化(PTQ)已成为压缩和加速大型语言模型(LLM)的常用技术。LLM量化的主要挑战在于,不均匀和重尾的数据分布会扩大量化范围,从而降低大多数值的位精度。现有方法试图通过线性变换消除异常值并平衡通道间差异;然而,这些方法仍然是启发式的,并且常常忽略了优化整个量化空间中的数据分布。本文提出了量化空间利用率(QSUR),这是一种有效评估变换后数据可量化性的新指标,通过测量数据在量化空间中的空间利用率来实现。我们用数学推导补充QSUR,研究各种变换的效果和局限性,指导我们开发基于正交和缩放变换的量化(OSTQuant)。OSQuant采用可学习的等效变换,包括正交变换和缩放变换,以优化整个量化空间中权重和激活的分布。此外,我们提出了KL-Top损失函数,旨在减轻优化过程中的噪声,同时在PTQ施加的有限校准数据中保留更丰富的语义信息。OSTQuant在各种LLM和基准测试中优于现有工作。在仅W4设置中,它保留了99.5%的浮点精度。在更具挑战性的W4A4KV4配置中,与最先进的方法相比,OSTQuant在LLaMA-3-8B模型上将性能差距缩小了32%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)后训练量化(PTQ)中,由于权重和激活值分布不均匀(例如存在异常值、通道间差异大)导致量化精度损失的问题。现有方法通常采用启发式的线性变换来处理这些问题,但缺乏对整个量化空间数据分布的优化,导致量化效果不佳。

核心思路:论文的核心思路是通过学习一个等效变换,将原始的权重和激活值映射到一个更适合量化的分布空间。这个变换由正交变换和缩放变换组成,旨在优化数据在整个量化空间中的利用率。通过最大化提出的量化空间利用率(QSUR)指标,可以有效地评估和优化变换后的数据分布。

技术框架:OSTQuant的整体框架包括以下几个主要步骤:1)数据收集:收集用于校准的少量数据。2)初始化:初始化正交变换和缩放变换的参数。3)变换:使用可学习的正交和缩放变换对权重和激活值进行变换。4)量化:对变换后的值进行量化。5)评估:使用QSUR指标评估量化效果。6)优化:使用KL-Top损失函数优化变换参数,目标是最大化QSUR。

关键创新:论文的关键创新点在于:1)提出了量化空间利用率(QSUR)指标,用于评估数据在量化空间中的利用程度。2)设计了基于正交和缩放变换的可学习等效变换,能够有效地优化数据分布,使其更适合量化。3)提出了KL-Top损失函数,用于在优化过程中减轻噪声,同时保留更丰富的语义信息。与现有方法的本质区别在于,OSTQuant更加关注整个量化空间的数据分布优化,而不是仅仅消除异常值或平衡通道间差异。

关键设计:1)正交变换:使用Givens rotation实现,保证变换后的数据能量不变,避免梯度消失或爆炸。2)缩放变换:学习每个通道的缩放因子,用于调整通道间的数据分布。3)KL-Top损失函数:只计算KL散度中Top-K个差异最大的元素,从而减轻噪声的影响,并保留重要的语义信息。4)QSUR指标:通过计算量化后数据的方差与量化范围的比值来衡量量化空间的利用率。

🖼️ 关键图片

img_0

📊 实验亮点

OSTQuant在多种LLM和基准测试中表现出色。在W4-only设置下,它保留了99.5%的浮点精度。在更具挑战性的W4A4KV4配置中,与最先进的方法相比,OSTQuant在LLaMA-3-8B模型上将性能差距缩小了32%。这些结果表明,OSTQuant能够有效地优化量化过程,显著提升量化模型的性能。

🎯 应用场景

OSTQuant可应用于各种需要压缩和加速的大型语言模型,例如部署在资源受限设备上的LLM应用、边缘计算场景以及需要快速推理的在线服务。该方法能够有效降低模型大小和计算复杂度,提高推理速度,同时保持较高的模型精度,具有重要的实际应用价值和广泛的应用前景。

📄 摘要(原文)

Post-training quantization (PTQ) has emerged as a widely adopted technique for compressing and accelerating Large Language Models (LLMs). The major challenge in LLM quantization is that uneven and heavy-tailed data distributions can expand the quantization range, thereby reducing bit precision for most values. Recent methods attempt to eliminate outliers and balance inter-channel differences by employing linear transformations; however, they remain heuristic and are often overlook optimizing the data distribution across the entire quantization space.In this paper, we introduce Quantization Space Utilization Rate (QSUR), a novel metric that effectively assesses the quantizability of transformed data by measuring the space utilization of the data in the quantization space. We complement QSUR with mathematical derivations that examine the effects and limitations of various transformations, guiding our development of Orthogonal and Scaling Transformation-based Quantization (OSTQuant). OSQuant employs a learnable equivalent transformation, consisting of an orthogonal transformation and a scaling transformation, to optimize the distributions of weights and activations across the entire quantization space. Futhermore, we propose the KL-Top loss function, designed to mitigate noise during optimization while retaining richer semantic information within the limited calibration data imposed by PTQ. OSTQuant outperforms existing work on various LLMs and benchmarks. In the W4-only setting, it retains 99.5\% of the floating-point accuracy. In the more challenging W4A4KV4 configuration, OSTQuant reduces the performance gap by 32\% on the LLaMA-3-8B model compared to state-of-the-art methods. \href{https://github.com/BrotherHappy/OSTQuant}{https://github.com/BrotherHappy/OSTQuant}.