pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

📄 arXiv: 2602.22592v1 📥 PDF

作者: Wenzheng Zhang, Bingzheng Liu, Yang Hu, Xiaoying Bai, Wentao Zhang, Bin Cui

分类: cs.LG, cs.CL

发布日期: 2026-02-26

备注: 10 pages, 7 figures


💡 一句话要点

pQuant:通过解耦线性量化感知训练实现高效的低比特语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 低比特量化 大型语言模型 参数解耦 边缘计算

📋 核心要点

  1. 现有极低比特量化感知训练方法存在参数敏感性同质化问题,限制了模型表达能力和精度。
  2. pQuant通过解耦线性层,使用1比特分支进行高效计算,高精度分支保留敏感参数,解决参数民主化问题。
  3. 实验表明,pQuant在极低比特量化任务上取得了state-of-the-art的性能,验证了其有效性。

📝 摘要(中文)

从头开始的量化感知训练(QAT)已成为构建具有极低比特权重(低于2比特)的高效大型语言模型(LLM)的一种有前景的方法,这为边缘部署提供了巨大的优势。然而,现有方法仍然无法实现令人满意的准确性和可扩展性。本文发现参数民主化效应是一个关键瓶颈:所有参数的敏感性变得同质化,严重限制了表达能力。为了解决这个问题,我们提出pQuant,一种通过将线性层分解为两个专门的分支来解耦参数的方法:一个用于高效计算的主要1比特分支和一个用于保留最敏感参数的紧凑型高精度分支。通过定制的特征缩放,我们明确地引导模型将敏感参数分配给高精度分支。此外,我们将这个分支扩展到多个稀疏激活的专家,从而实现高效的容量扩展。大量的实验表明,我们的pQuant在极低比特量化方面实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决极低比特量化(sub 2-bit)大型语言模型(LLM)的训练问题。现有方法,特别是量化感知训练(QAT),在极低比特下会遇到“参数民主化”效应,即所有参数的敏感性趋于一致,导致模型表达能力下降,精度难以提升。现有方法无法在精度和可扩展性上同时达到令人满意的效果。

核心思路:pQuant的核心思路是将线性层中的参数解耦,区分对待不同敏感度的参数。具体来说,将线性层分解为两个分支:一个主要的1比特分支负责高效计算,另一个紧凑的高精度分支负责保留最敏感的参数。通过这种方式,模型可以专注于用高精度参数来表达重要的信息,避免所有参数都被强制量化到极低比特带来的信息损失。

技术框架:pQuant的技术框架主要包含以下几个部分:1)线性层分解:将原始线性层分解为1比特分支和高精度分支。2)特征缩放:通过定制的特征缩放机制,引导模型将敏感参数分配到高精度分支。3)高精度分支扩展:将高精度分支扩展为多个稀疏激活的专家,以提高模型容量。整体训练流程仍然是量化感知训练,但在网络结构上进行了创新性的修改。

关键创新:pQuant最重要的技术创新点在于解耦线性层,并使用不同的量化策略处理不同的参数。与传统的QAT方法不同,pQuant不再强制所有参数都使用极低比特量化,而是允许一部分参数以更高的精度存在,从而保留了模型的表达能力。此外,通过特征缩放和稀疏激活专家机制,进一步提高了模型的性能和可扩展性。

关键设计:pQuant的关键设计包括:1)1比特分支和高精度分支的比例:需要根据具体任务和数据集进行调整,以平衡计算效率和模型精度。2)特征缩放的策略:如何有效地引导模型将敏感参数分配到高精度分支是关键。论文中可能使用了特定的损失函数或正则化项来实现这一目标。3)稀疏激活专家的数量和结构:需要根据模型容量和计算资源进行调整,以实现最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量实验验证了pQuant的有效性,在极低比特量化任务上取得了state-of-the-art的性能。具体实验数据(例如在特定数据集上的精度提升)需要在论文中查找。与现有方法相比,pQuant能够在保持甚至提升模型精度的同时,显著降低模型的存储和计算成本。

🎯 应用场景

pQuant技术可应用于边缘设备的低功耗AI加速,例如智能手机、物联网设备等。通过降低LLM的存储和计算需求,使得在资源受限的设备上部署复杂的AI模型成为可能。这对于实现本地化的AI服务、保护用户隐私以及降低云计算成本具有重要意义。未来,该技术有望推动LLM在更广泛领域的应用。

📄 摘要(原文)

Quantization-Aware Training from scratch has emerged as a promising approach for building efficient large language models (LLMs) with extremely low-bit weights (sub 2-bit), which can offer substantial advantages for edge deployment. However, existing methods still fail to achieve satisfactory accuracy and scalability. In this work, we identify a parameter democratization effect as a key bottleneck: the sensitivity of all parameters becomes homogenized, severely limiting expressivity. To address this, we propose pQuant, a method that decouples parameters by splitting linear layers into two specialized branches: a dominant 1-bit branch for efficient computation and a compact high-precision branch dedicated to preserving the most sensitive parameters. Through tailored feature scaling, we explicitly guide the model to allocate sensitive parameters to the high-precision branch. Furthermore, we extend this branch into multiple, sparsely-activated experts, enabling efficient capacity scaling. Extensive experiments indicate our pQuant achieves state-of-the-art performance in extremely low-bit quantization.