ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation
作者: Suyoung Kim, Sunghyun Wee, Hyeonjin Kim, Kyomin Hwang, Hyunho Lee, Nojun Kwak
分类: cs.CV, cs.AI
发布日期: 2026-04-13
💡 一句话要点
ReSpinQuant:通过子空间残差旋转逼近实现高效的逐层LLM量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型量化 训练后量化 旋转量化 逐层量化 子空间旋转 模型压缩 推理加速
📋 核心要点
- 现有全局旋转量化方法表达能力有限,无法充分适应不同层的激活分布,导致量化精度受限。
- ReSpinQuant通过离线激活旋转融合和残差子空间旋转,在保证高表达性的同时,避免了在线计算开销。
- 实验结果表明,ReSpinQuant在W4A4和W3A3量化下,性能优于全局旋转方法,并接近计算代价高的逐层方法。
📝 摘要(中文)
基于旋转的训练后量化(PTQ)已成为缓解大型语言模型(LLM)量化中激活异常值的有希望的解决方案。全局旋转方法通过将激活旋转融合到注意力和FFN块中来实现推理效率,但由于它们被限制为在所有层中使用单个可学习的旋转矩阵,因此表达能力有限。为了解决这个问题,出现了逐层转换方法,通过局部自适应实现了卓越的精度。然而,逐层方法无法将激活旋转矩阵融合到权重中,需要在线计算,从而导致显著的开销。在本文中,我们提出ReSpinQuant,一个量化框架,通过利用离线激活旋转融合和使用高效残差子空间旋转的匹配基来解决这种开销。这种设计将逐层自适应的高表达性与可忽略的推理开销相协调。在W4A4和W3A3量化上的大量实验表明,ReSpinQuant实现了最先进的性能,优于全局旋转方法,并以最小的开销匹配了计算昂贵的逐层方法的精度。
🔬 方法详解
问题定义:大型语言模型(LLM)的量化旨在降低模型大小和计算复杂度,但直接量化会引入显著的精度损失,尤其是在激活值存在异常值的情况下。基于旋转的量化方法通过旋转激活空间来缓解这个问题。然而,全局旋转方法使用单一旋转矩阵,表达能力不足,无法适应不同层的激活分布。逐层旋转方法虽然精度更高,但无法将旋转融合到权重中,导致推理时需要在线计算旋转,引入显著的开销。
核心思路:ReSpinQuant的核心思路是结合全局旋转和逐层旋转的优点,同时避免它们的缺点。它通过逐层学习旋转矩阵来提高表达能力,并通过离线融合激活旋转来消除在线计算开销。关键在于使用残差子空间旋转来近似逐层旋转矩阵,从而实现高效的离线融合。
技术框架:ReSpinQuant的整体框架包括以下几个阶段:1) 逐层学习激活旋转矩阵,以最小化量化误差。2) 使用残差子空间旋转来近似每个层的旋转矩阵。3) 将近似的旋转矩阵融合到权重中,实现离线融合。4) 对融合后的权重和激活进行量化。推理时,只需要执行量化后的前向传播,无需额外的旋转计算。
关键创新:ReSpinQuant的关键创新在于使用残差子空间旋转来近似逐层旋转矩阵。这种方法既能保证逐层旋转的高表达性,又能实现高效的离线融合。与全局旋转相比,它能更好地适应不同层的激活分布。与逐层旋转相比,它避免了在线计算开销。
关键设计:残差子空间旋转的具体实现方式是:首先选择一个低维子空间,然后在该子空间内学习一个旋转矩阵。该旋转矩阵用于近似原始的逐层旋转矩阵。子空间的选择和旋转矩阵的学习可以通过最小化量化误差来进行优化。论文中具体使用了哪些参数设置、损失函数和网络结构等技术细节,摘要中没有明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
ReSpinQuant在W4A4和W3A3量化设置下进行了广泛的实验。实验结果表明,ReSpinQuant在保持与计算昂贵的逐层方法相当的精度的同时,显著优于全局旋转方法,并且几乎没有额外的推理开销。具体的性能提升数据在摘要中没有给出,属于未知信息。
🎯 应用场景
ReSpinQuant可应用于各种需要高效LLM推理的场景,例如移动设备上的自然语言处理、边缘计算设备上的智能助手、以及对延迟敏感的云服务。通过降低模型大小和计算复杂度,ReSpinQuant能够使LLM在资源受限的环境中部署和运行,从而扩展LLM的应用范围。
📄 摘要(原文)
Rotation-based Post-Training Quantization (PTQ) has emerged as a promising solution for mitigating activation outliers in the quantization of Large Language Models (LLMs). Global rotation methods achieve inference efficiency by fusing activation rotations into attention and FFN blocks, but suffer from limited expressivity as they are constrained to use a single learnable rotation matrix across all layers. To tackle this, layer-wise transformation methods emerged, achieving superior accuracy through localized adaptation. However, layer-wise methods cannot fuse activation rotation matrices into weights, requiring online computations and causing significant overhead. In this paper, we propose ReSpinQuant, a quantization framework that resolves such overhead by leveraging offline activation rotation fusion and matching basis using efficient residual subspace rotation. This design reconciles the high expressivity of layer-wise adaptation with only negligible inference overhead. Extensive experiments on W4A4 and W3A3 quantization demonstrate that ReSpinQuant achieves state-of-the-art performance, outperforming global rotation methods and matching the accuracy of computationally expensive layer-wise methods with minimal overhead.