pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

作者: Wenzheng Zhang, Bingzheng Liu, Yang Hu, Xiaoying Bai, Wentao Zhang, Bin Cui

分类: cs.LG, cs.CL

发布日期: 2026-02-28

💡 一句话要点

pQuant：通过解耦线性量化感知训练实现高效的低比特语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低比特量化 量化感知训练 大型语言模型 模型压缩 边缘计算

📋 核心要点

现有极低比特量化感知训练方法在准确性和可扩展性方面存在瓶颈，参数敏感性同质化限制了模型表达能力。
pQuant通过解耦线性层，使用1比特分支进行高效计算，高精度分支保留敏感参数，解决参数民主化问题。
实验表明，pQuant在极低比特量化方面取得了state-of-the-art的性能，验证了其有效性。

📝 摘要（中文）

从头开始的量化感知训练（QAT）已成为构建具有极低比特权重（低于2比特）的高效大型语言模型（LLM）的一种有前景的方法，这可以为边缘部署提供显著优势。然而，现有方法仍然无法实现令人满意的准确性和可扩展性。在这项工作中，我们发现参数民主化效应是一个关键瓶颈：所有参数的敏感性变得同质化，严重限制了表达能力。为了解决这个问题，我们提出了pQuant，一种通过将线性层分解为两个专门分支来解耦参数的方法：一个用于高效计算的主要1比特分支和一个专用于保留最敏感参数的紧凑型高精度分支。通过定制的特征缩放，我们明确地引导模型将敏感参数分配给高精度分支。此外，我们将这个分支扩展到多个稀疏激活的专家，从而实现高效的容量扩展。大量的实验表明，我们的pQuant在极低比特量化方面实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决极低比特（sub 2-bit）量化大型语言模型（LLM）时，现有量化感知训练（QAT）方法精度和可扩展性不足的问题。现有方法的痛点在于“参数民主化效应”，即所有参数的敏感性趋于一致，导致模型表达能力受限。

核心思路：论文的核心思路是通过解耦线性层中的参数，将它们分配到不同的分支中，从而差异化地处理参数。具体来说，将线性层分解为一个主要的1比特分支和一个高精度分支。1比特分支负责高效计算，而高精度分支则专注于保留最敏感的参数，从而避免参数敏感性同质化。

技术框架：pQuant方法的核心在于将线性层分解为两个分支：1. 1比特分支：负责大部分计算，采用1比特量化以实现高效的推理。2. 高精度分支：保留少量最敏感的参数，使用更高的精度，以维持模型的表达能力。此外，高精度分支可以进一步扩展为多个稀疏激活的专家，以提升模型容量。通过特征缩放机制，引导模型将敏感参数分配到高精度分支。

关键创新：pQuant的关键创新在于解耦线性层，并使用不同的量化策略处理不同的参数。这种解耦策略打破了参数民主化效应，允许模型更有效地利用有限的比特数。将高精度分支扩展为稀疏激活的专家，进一步提升了模型容量和效率。

关键设计：论文的关键设计包括：1. 线性层解耦：将线性层分解为1比特分支和高精度分支。2. 特征缩放：通过定制的特征缩放机制，引导模型将敏感参数分配到高精度分支。3. 稀疏激活专家：将高精度分支扩展为多个稀疏激活的专家，以提升模型容量。具体的损失函数和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了pQuant在极低比特量化方面的优越性能。实验结果表明，pQuant在保持较高准确率的同时，显著降低了模型的存储空间和计算复杂度。具体的性能数据、对比基线和提升幅度需要在论文中查找（未知），但摘要表明pQuant达到了state-of-the-art的性能。

🎯 应用场景

pQuant方法适用于对计算资源和能耗有严格限制的边缘设备，例如移动设备、嵌入式系统和物联网设备。通过将大型语言模型压缩到极低的比特数，pQuant使得在这些设备上部署复杂的自然语言处理应用成为可能，例如智能助手、机器翻译和文本摘要等。该研究有助于推动人工智能在资源受限环境中的普及。

📄 摘要（原文）

Quantization-Aware Training from scratch has emerged as a promising approach for building efficient large language models (LLMs) with extremely low-bit weights (sub 2-bit), which can offer substantial advantages for edge deployment. However, existing methods still fail to achieve satisfactory accuracy and scalability. In this work, we identify a parameter democratization effect as a key bottleneck: the sensitivity of all parameters becomes homogenized, severely limiting expressivity. To address this, we propose pQuant, a method that decouples parameters by splitting linear layers into two specialized branches: a dominant 1-bit branch for efficient computation and a compact high-precision branch dedicated to preserving the most sensitive parameters. Through tailored feature scaling, we explicitly guide the model to allocate sensitive parameters to the high-precision branch. Furthermore, we extend this branch into multiple, sparsely-activated experts, enabling efficient capacity scaling. Extensive experiments indicate our pQuant achieves state-of-the-art performance in extremely low-bit quantization.

pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理