pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

作者: Wenzheng Zhang, Bingzheng Liu, Yang Hu, Xiaoying Bai, Wentao Zhang, Bin Cui

分类: cs.LG, cs.CL

发布日期: 2026-02-26

备注: 10 pages, 7 figures

💡 一句话要点

pQuant：通过解耦线性量化感知训练实现高效的低比特语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 低比特量化 大型语言模型 参数解耦 边缘计算

📋 核心要点

现有极低比特量化感知训练方法存在参数敏感性同质化问题，限制了模型表达能力和精度。
pQuant通过解耦线性层，使用1比特分支进行高效计算，高精度分支保留敏感参数，解决参数民主化问题。
实验表明，pQuant在极低比特量化任务上取得了state-of-the-art的性能，验证了其有效性。

📝 摘要（中文）

从头开始的量化感知训练（QAT）已成为构建具有极低比特权重（低于2比特）的高效大型语言模型（LLM）的一种有前景的方法，这为边缘部署提供了巨大的优势。然而，现有方法仍然无法实现令人满意的准确性和可扩展性。本文发现参数民主化效应是一个关键瓶颈：所有参数的敏感性变得同质化，严重限制了表达能力。为了解决这个问题，我们提出pQuant，一种通过将线性层分解为两个专门的分支来解耦参数的方法：一个用于高效计算的主要1比特分支和一个用于保留最敏感参数的紧凑型高精度分支。通过定制的特征缩放，我们明确地引导模型将敏感参数分配给高精度分支。此外，我们将这个分支扩展到多个稀疏激活的专家，从而实现高效的容量扩展。大量的实验表明，我们的pQuant在极低比特量化方面实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决极低比特量化（sub 2-bit）大型语言模型（LLM）的训练问题。现有方法，特别是量化感知训练（QAT），在极低比特下会遇到“参数民主化”效应，即所有参数的敏感性趋于一致，导致模型表达能力下降，精度难以提升。现有方法无法在精度和可扩展性上同时达到令人满意的效果。

核心思路：pQuant的核心思路是将线性层中的参数解耦，区分对待不同敏感度的参数。具体来说，将线性层分解为两个分支：一个主要的1比特分支负责高效计算，另一个紧凑的高精度分支负责保留最敏感的参数。通过这种方式，模型可以专注于用高精度参数来表达重要的信息，避免所有参数都被强制量化到极低比特带来的信息损失。

技术框架：pQuant的技术框架主要包含以下几个部分：1）线性层分解：将原始线性层分解为1比特分支和高精度分支。2）特征缩放：通过定制的特征缩放机制，引导模型将敏感参数分配到高精度分支。3）高精度分支扩展：将高精度分支扩展为多个稀疏激活的专家，以提高模型容量。整体训练流程仍然是量化感知训练，但在网络结构上进行了创新性的修改。

关键创新：pQuant最重要的技术创新点在于解耦线性层，并使用不同的量化策略处理不同的参数。与传统的QAT方法不同，pQuant不再强制所有参数都使用极低比特量化，而是允许一部分参数以更高的精度存在，从而保留了模型的表达能力。此外，通过特征缩放和稀疏激活专家机制，进一步提高了模型的性能和可扩展性。

关键设计：pQuant的关键设计包括：1）1比特分支和高精度分支的比例：需要根据具体任务和数据集进行调整，以平衡计算效率和模型精度。2）特征缩放的策略：如何有效地引导模型将敏感参数分配到高精度分支是关键。论文中可能使用了特定的损失函数或正则化项来实现这一目标。3）稀疏激活专家的数量和结构：需要根据模型容量和计算资源进行调整，以实现最佳的性能。

🖼️ 关键图片

📊 实验亮点

论文通过大量实验验证了pQuant的有效性，在极低比特量化任务上取得了state-of-the-art的性能。具体实验数据（例如在特定数据集上的精度提升）需要在论文中查找。与现有方法相比，pQuant能够在保持甚至提升模型精度的同时，显著降低模型的存储和计算成本。

🎯 应用场景

pQuant技术可应用于边缘设备的低功耗AI加速，例如智能手机、物联网设备等。通过降低LLM的存储和计算需求，使得在资源受限的设备上部署复杂的AI模型成为可能。这对于实现本地化的AI服务、保护用户隐私以及降低云计算成本具有重要意义。未来，该技术有望推动LLM在更广泛领域的应用。

📄 摘要（原文）

Quantization-Aware Training from scratch has emerged as a promising approach for building efficient large language models (LLMs) with extremely low-bit weights (sub 2-bit), which can offer substantial advantages for edge deployment. However, existing methods still fail to achieve satisfactory accuracy and scalability. In this work, we identify a parameter democratization effect as a key bottleneck: the sensitivity of all parameters becomes homogenized, severely limiting expressivity. To address this, we propose pQuant, a method that decouples parameters by splitting linear layers into two specialized branches: a dominant 1-bit branch for efficient computation and a compact high-precision branch dedicated to preserving the most sensitive parameters. Through tailored feature scaling, we explicitly guide the model to allocate sensitive parameters to the high-precision branch. Furthermore, we extend this branch into multiple, sparsely-activated experts, enabling efficient capacity scaling. Extensive experiments indicate our pQuant achieves state-of-the-art performance in extremely low-bit quantization.

pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理