CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs

📄 arXiv: 2604.26378v1 📥 PDF

作者: Zhe Ding, Su Pan, Duowei Pan

分类: cs.LG

发布日期: 2026-04-29

备注: 14 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

CoQuant:面向混合精度LLM的联合权重-激活子空间投影量化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 混合精度量化 大型语言模型 子空间投影 权重激活联合优化

📋 核心要点

  1. 现有混合精度量化方法仅依赖激活统计构建高精度子空间,忽略了权重量化噪声的影响。
  2. CoQuant通过联合建模权重和激活的协方差,使用加权PCA选择最优高精度子空间。
  3. 实验表明,CoQuant在Llama-3.2和Qwen2.5模型上显著优于现有PTQ基线方法。

📝 摘要(中文)

后训练量化(PTQ)已成为降低大型语言模型(LLM)推理成本的重要技术。最近的混合精度方法通过在高精度下保留关键子空间来改进超低比特量化,但它们通常仅依赖于激活统计信息来构建这些子空间。这忽略了线性运算的本质,即输出扰动是由激活和权重量化噪声共同驱动的。本文提出了CoQuant,一种联合权重-激活子空间投影方法。通过理论建模期望的输出误差,CoQuant提出了一个闭式加权PCA解决方案,该方案平衡了激活和权重的协方差,以选择最佳的高精度子空间。在Llama-3.2和Qwen2.5模型上的大量实验表明,CoQuant在WikiText困惑度和zero-shot常识推理准确性方面始终优于强大的PTQ基线。这些结果表明,联合权重-激活子空间建模为低比特LLM量化提供了一个原则性和有效的方向。

🔬 方法详解

问题定义:现有的混合精度量化方法在对大型语言模型进行量化时,通常只关注激活值的统计信息来确定哪些部分需要保持较高的精度,而忽略了权重本身的量化误差对最终输出的影响。这种方法没有充分利用线性运算的特性,即输出的误差是由权重和激活共同决定的。因此,如何同时考虑权重和激活的量化误差,从而更有效地进行混合精度量化,是一个关键问题。

核心思路:CoQuant的核心思路是联合考虑权重和激活的量化噪声,通过理论建模期望的输出误差,并利用加权主成分分析(PCA)来选择最优的高精度子空间。这种方法旨在平衡激活和权重的协方差,从而更准确地确定哪些部分对模型的性能至关重要,需要保持较高的精度。

技术框架:CoQuant的技术框架主要包括以下几个步骤:首先,对权重和激活进行量化,并计算它们的协方差矩阵。然后,基于理论模型,推导出期望输出误差的表达式,该表达式同时考虑了权重和激活的量化噪声。接着,利用加权PCA对协方差矩阵进行分解,得到一个能够平衡激活和权重信息的子空间。最后,将这个子空间中的权重和激活保持较高的精度,而将其他部分量化到较低的精度。

关键创新:CoQuant最重要的技术创新点在于它提出了一种联合权重-激活子空间投影的方法。与现有方法只关注激活信息不同,CoQuant同时考虑了权重和激活的量化噪声,并利用加权PCA来选择最优的高精度子空间。这种方法更符合线性运算的本质,能够更准确地确定哪些部分对模型的性能至关重要。

关键设计:CoQuant的关键设计在于其闭式加权PCA解决方案。通过理论建模,CoQuant推导出了一个可以直接计算的加权PCA表达式,避免了复杂的迭代优化过程。此外,CoQuant还设计了一种平衡激活和权重协方差的加权策略,使得模型能够更好地适应不同的量化精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoQuant在Llama-3.2和Qwen2.5模型上进行了广泛的实验,结果表明CoQuant在WikiText困惑度和zero-shot常识推理准确性方面始终优于强大的PTQ基线。例如,在某些配置下,CoQuant可以将模型的困惑度降低到比基线方法更低的水平,同时保持较高的推理准确率。这些结果充分证明了CoQuant在低比特LLM量化方面的有效性。

🎯 应用场景

CoQuant具有广泛的应用前景,可用于降低大型语言模型在边缘设备或资源受限环境中的部署成本。通过更有效地进行混合精度量化,CoQuant可以显著减小模型大小和推理延迟,从而使得LLM能够在更多场景下得到应用,例如移动设备、嵌入式系统和云计算平台。

📄 摘要(原文)

Post-training quantization (PTQ) has become an important technique for reducing the inference cost of Large Language Models (LLMs). While recent mixed-precision methods improve ultra-low bit quantization by preserving critical subspaces in high precision, they typically construct these subspaces relying solely on activation statistics. This ignores the fundamental nature of linear operations, where the output perturbation is jointly driven by both activation and weight quantization noise. In this paper, we propose CoQuant, a joint weight-activation subspace projection method. By theoretically modeling the expected output error, CoQuant formulates a closed-form weighted PCA solution that balances activation and weight covariances to select the optimal high-precision subspace. Extensive experiments on Llama-3.2 and Qwen2.5 models show that CoQuant consistently outperforms strong PTQ baselines in both WikiText perplexity and zero-shot common-sense reasoning accuracy. These results demonstrate that joint weight-activation subspace modeling provides a principled and effective direction for low-bit LLM quantization. The source code is available at https://github.com/Zachary5895/CoQuant.