BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

作者: Junyu Chen, Jungang Li, Jing Xiong, Wenjie Wang, Qingyao Yang, He Xiao, Zhen Li, Taiqiang Wu, Mengzhao Chen, Zhen Peng, Chaofan Tao, Long Shi, Hongxia Yang, Ngai Wong

分类: cs.LG

发布日期: 2026-02-04

💡 一句话要点

BPDQ：基于可变网格的比特平面分解量化，用于大语言模型压缩

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 量化 低比特量化 比特平面分解 可变量化网格

📋 核心要点

现有量化方法采用固定形状的量化网格，限制了误差最小化的可行性，导致低比特量化精度下降。
BPDQ通过比特平面和标量系数构建可变量化网格，并迭代优化，逐步补偿量化误差，从而最小化输出差异。
实验表明，BPDQ在2比特量化下，能够显著提升大语言模型的推理精度，例如在Qwen2.5-72B模型上取得了优秀的GSM8K准确率。

📝 摘要（中文）

大语言模型（LLM）的推理通常受限于资源受限部署中的内存占用和内存带宽，这使得量化成为高效服务的关键技术。虽然训练后量化（PTQ）在4比特时保持高保真度，但在2-3比特时会恶化。从根本上说，现有方法对每个组强制执行形状不变的量化网格（例如，UINT2的固定均匀间隔），严重限制了误差最小化的可行集。为了解决这个问题，我们提出了比特平面分解量化（BPDQ），它通过比特平面和标量系数构建可变的量化网格，并使用近似二阶信息迭代地细化它们，同时逐步补偿量化误差，以最小化输出差异。在2比特方案中，BPDQ能够在单个RTX 3090上服务Qwen2.5-72B，GSM8K准确率为83.85%（而16比特时为90.83%）。此外，我们提供了理论分析，表明可变网格扩展了可行集，并且量化过程始终与Hessian诱导几何中的优化目标对齐。

🔬 方法详解

问题定义：论文旨在解决大语言模型低比特量化（尤其是2-3比特）时精度显著下降的问题。现有方法，如PTQ，在低比特下性能不佳，主要原因是它们采用固定形状的量化网格，无法充分适应模型参数的分布，限制了误差最小化的能力。

核心思路：BPDQ的核心思路是构建一个可变的量化网格，使其能够更好地适应模型参数的分布，从而在低比特量化下实现更高的精度。通过比特平面分解和标量系数的组合，BPDQ能够灵活地调整量化网格的形状，从而更有效地最小化量化误差。

技术框架：BPDQ的整体流程包括以下几个主要阶段：1) 比特平面分解：将原始权重分解为多个比特平面。2) 可变量化网格构建：利用比特平面和标量系数构建可变的量化网格。3) 迭代优化：使用近似二阶信息迭代地优化标量系数，并逐步补偿量化误差。4) 量化：将权重映射到可变量化网格中的离散值。

关键创新：BPDQ最关键的创新在于其可变量化网格的设计。与现有方法采用的固定形状量化网格不同，BPDQ的量化网格可以根据模型参数的分布进行调整，从而更有效地最小化量化误差。此外，BPDQ还采用了迭代优化和误差补偿机制，进一步提升了量化精度。

关键设计：BPDQ的关键设计包括：1) 比特平面分解的具体方式，例如如何选择比特平面的数量和顺序。2) 标量系数的初始化和优化方法，例如使用近似二阶信息进行优化。3) 误差补偿的具体策略，例如如何估计和补偿量化误差。4) 损失函数的设计，目标是最小化量化后的模型输出与原始模型输出之间的差异。

🖼️ 关键图片

📊 实验亮点

BPDQ在2比特量化下，能够在单个RTX 3090上运行Qwen2.5-72B模型，并取得了83.85%的GSM8K准确率，相比之下，16比特浮点模型的准确率为90.83%。这表明BPDQ在极低比特量化下，仍然能够保持较高的模型性能，显著优于传统的量化方法。

🎯 应用场景

BPDQ技术可广泛应用于资源受限场景下的大语言模型部署，例如移动设备、边缘计算设备等。通过降低模型内存占用和内存带宽需求，BPDQ能够使这些设备也能运行大型语言模型，从而实现更智能化的应用，例如本地化的自然语言处理、智能助手等。该技术还有助于降低大模型推理的成本，加速大模型的普及。

📄 摘要（原文）

Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.

BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理