ConQuR: Corner Aligned Activation Quantization via Optimized Rotations for LLMs
作者: Chayne Thrash, Ali Abbasi, Soheil Kolouri
分类: cs.LG
发布日期: 2026-05-11
💡 一句话要点
提出ConQuR:一种基于优化旋转的角对齐激活量化方法,以解决LLM低比特量化中的离群值难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型量化 激活量化 正交旋转 后训练校准 模型压缩
📋 核心要点
- 现有低比特激活量化受离群值影响严重,而现有的旋转补偿方法通常伴随高昂的训练成本或巨大的存储开销。
- 提出ConQuR方法,通过将激活对齐至超立方体顶点,利用正交Procrustes问题的闭式解实现轻量级旋转优化。
- 在Llama系列模型上验证了该方法,在保持高性能的同时,显著降低了量化过程中的计算复杂度和存储需求。
📝 摘要(中文)
大型语言模型(LLM)因其巨大的内存占用和高昂的推理成本,部署难度极大。权重-激活量化虽能降低这些成本,但低比特激活量化因离群值导致的巨大量化误差而极具挑战。近期基于旋转的方法通过正交变换重新分配激活幅值来缓解此问题,但现有方案要么需要昂贵的端到端旋转训练,要么依赖存储激活语料库,带来了显著的计算或存储开销。本文提出了一种轻量级的LLM激活量化后训练旋转校准方法。该方法通过学习正交旋转,将归一化激活与内接超立方体的角对齐,从而促进激活能量在各维度间的均匀分布。该目标函数可通过正交Procrustes问题的闭式解高效求解,避免了在正交群上进行基于梯度的优化。此外,我们引入了在线校准程序,在处理校准样本时更新旋转,消除了磁盘存储激活的需求,并使旋转能适应量化后的激活分布。在3B至70B参数的Llama-2和Llama-3模型上的实验表明,该方法在困惑度基准和常识推理任务中表现优异,且无需昂贵的端到端训练或大规模离线存储。
🔬 方法详解
问题定义:LLM在低比特量化时,激活值中存在的离群值(Outliers)会导致严重的量化误差。现有旋转方法旨在通过正交变换平滑激活分布,但往往需要昂贵的端到端训练或存储海量激活数据,限制了其在实际部署中的应用。
核心思路:ConQuR的核心思想是将激活向量通过正交旋转变换,使其分布更接近于超立方体的顶点(Corners)。这种几何对齐方式能有效降低激活值的动态范围,使量化器能更均匀地覆盖激活空间,从而减少量化噪声。
技术框架:该方法采用后训练校准流程。首先对激活进行归一化处理,随后通过在线方式迭代更新正交旋转矩阵。在每一轮校准中,利用当前样本更新旋转参数,无需预先存储所有激活数据,实现了流式处理。
关键创新:最重要的创新在于将旋转优化转化为正交Procrustes问题,从而获得了闭式解(Closed-form solution)。这彻底规避了在正交群(Orthogonal Group)上进行复杂的梯度下降优化,大幅提升了计算效率。
关键设计:关键设计包括目标函数的设计,即最小化激活向量与目标超立方体顶点之间的距离。通过在线校准机制,旋转矩阵能够动态适应量化后的激活分布,确保了在不同模型规模(3B-70B)下的鲁棒性与适应性。
🖼️ 关键图片
📊 实验亮点
实验在Llama-2和Llama-3(3B-70B)模型上进行,结果显示ConQuR在困惑度(Perplexity)和常识推理任务上均优于或持平于现有基线方法。其核心优势在于无需端到端训练,且通过在线校准消除了对大规模离线激活存储的依赖,实现了计算效率与模型精度的平衡。
🎯 应用场景
该技术主要应用于大语言模型的边缘侧部署与高效推理场景。通过降低激活量化误差,它使得LLM能够在资源受限的硬件(如移动设备、嵌入式系统)上以更低的比特数运行,同时保持接近全精度的模型性能,具有极高的工业应用价值。
📄 摘要(原文)
Large language models (LLMs) are costly to deploy due to their large memory footprint and high inference cost. Weight-activation quantization can reduce these costs, but low-bit activation quantization remains difficult because activation outliers induce large quantization error. Recent rotation-based methods address this by applying orthogonal transformations that redistribute activation magnitude across dimensions, but existing approaches either require expensive end-to-end rotation training or rely on stored activation corpora, introducing significant compute or storage overhead. We propose a lightweight post-training rotation calibration method for LLM activation quantization. Our method learns orthogonal rotations that align normalized activations with the corners of an inscribed hypercube, encouraging activation energy to be distributed more evenly across dimensions. This objective admits an efficient closed-form update via the orthogonal Procrustes problem, avoiding gradient-based optimization over the orthogonal group. We further introduce an online calibration procedure that updates rotations as calibration samples are processed, eliminating the need to store activations on disk and allowing rotations to adapt to quantized activation distributions during calibration. Experiments on Llama-2 and Llama-3 models from 3B to 70B parameters show that our method achieves competitive or improved performance across perplexity benchmarks and common sense reasoning tasks while avoiding both costly end-to-end training and large offline activation storage.