Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free

📄 arXiv: 2505.03810v2 📥 PDF

作者: Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-02 (更新: 2025-08-14)

备注: 7 pages


💡 一句话要点

提出分组排序旋转(GSR),无需训练优化LLM的量化旋转变换

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大型语言模型 旋转量化 Walsh-Hadamard变换 低比特量化

📋 核心要点

  1. 现有基于旋转的后训练量化方法在极低比特宽度下性能显著下降,无法有效部署大型语言模型。
  2. 利用Walsh-Hadamard变换的排序特性,将相似频率分量聚集,减少量化误差,提升低比特量化性能。
  3. 提出分组排序旋转(GSR),通过块对角矩阵隔离异常值影响,无需训练即可达到与优化方法相当的性能。

📝 摘要(中文)

大型语言模型(LLM)因其高计算成本而面临部署挑战。后训练量化(PTQ)提供了一种解决方案,但现有的基于旋转的方法在极低比特宽度(如2比特)下表现不佳。本文提出了一种新颖的、无需训练的方法来构建改进的旋转矩阵,解决了当前方法的局限性。关键贡献包括利用具有排序的Walsh-Hadamard变换,它将相似的频率分量聚集在一起,从而减少了量化误差,与标准Hadamard矩阵相比,显著提高了性能。此外,我们提出了一种分组排序旋转(GSR),它使用具有较小Walsh块的块对角矩阵,有效地隔离了异常值的影响,并在不需要任何训练的情况下实现了与基于优化的方法相当的性能。我们的方法在推理任务和WikiText-2上的困惑度(PPL)得分方面表现出强大的性能。即使应用于现有的学习旋转技术之上,我们的方法也能增强结果。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在低比特量化场景下的部署难题。现有的基于旋转的后训练量化(PTQ)方法,尤其是在2比特等极低比特宽度下,性能显著下降,无法满足实际应用需求。这些方法通常依赖于标准Hadamard矩阵,其频率分量分布较为分散,导致量化误差较大。

核心思路:论文的核心思路是利用Walsh-Hadamard变换的排序特性,将相似的频率分量聚集在一起,从而减少量化误差。通过这种方式,量化后的权重能够更好地保留原始权重的信息,从而提升量化模型的性能。此外,通过分组策略,进一步隔离异常值的影响,提高模型的鲁棒性。

技术框架:整体框架包括以下几个主要步骤:1) 对权重矩阵进行分组;2) 对每组权重应用排序的Walsh-Hadamard变换,生成旋转矩阵;3) 使用生成的旋转矩阵对权重进行旋转;4) 对旋转后的权重进行量化;5) 使用反向旋转矩阵将量化后的权重恢复到原始空间。其中,分组排序旋转(GSR)是核心模块,负责生成优化的旋转矩阵。

关键创新:最重要的技术创新点在于提出了分组排序旋转(GSR)方法。与传统的基于Hadamard矩阵的旋转方法不同,GSR利用排序的Walsh-Hadamard变换,将相似频率分量聚集,从而减少量化误差。此外,GSR采用块对角矩阵结构,通过分组策略隔离异常值的影响,进一步提升了模型的鲁棒性。与需要训练的优化方法相比,GSR无需任何训练,降低了计算成本。

关键设计:GSR的关键设计包括:1) 使用Walsh-Hadamard变换进行旋转,利用其正交性和快速计算特性;2) 对Walsh-Hadamard变换进行排序,将相似频率分量聚集;3) 采用块对角矩阵结构,将权重矩阵分成多个组,并对每组应用独立的旋转矩阵;4) 块大小的选择是关键参数,需要根据具体的模型和数据集进行调整,以平衡性能和计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在推理任务和WikiText-2数据集上取得了显著的性能提升。例如,在WikiText-2数据集上,该方法在2比特量化下实现了与优化方法相当的困惑度(PPL)得分,且无需任何训练。此外,即使应用于现有的学习旋转技术之上,该方法也能进一步提升性能。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的低比特量化部署,尤其是在资源受限的边缘设备上。通过降低模型大小和计算复杂度,可以实现LLM在移动设备、嵌入式系统等场景下的高效推理。此外,该方法还可以应用于其他深度学习模型的量化压缩,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) face deployment challenges due to high computational costs, and while Post-Training Quantization (PTQ) offers a solution, existing rotation-based methods struggle at very low bit-widths like 2-bit. We introduce a novel, training-free approach to construct an improved rotation matrix, addressing the limitations of current methods. The key contributions include leveraging the Walsh-Hadamard transform with sequency ordering, which clusters similar frequency components to reduce quantization error compared to standard Hadamard matrices, significantly improving performance. Furthermore, we propose a Grouped Sequency-arranged Rotation (GSR) using block-diagonal matrices with smaller Walsh blocks, effectively isolating outlier impacts and achieving performance comparable to optimization-based methods without requiring any training. Our method demonstrates robust performance on reasoning tasks and Perplexity (PPL) score on WikiText-2. Our method also enhances results even when applied over existing learned rotation techniques.