BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs
作者: Zhixiong Zhao, Zukang Xu, Dawei Yang
分类: cs.LG, cs.AI
发布日期: 2026-05-01
备注: Accepted by ACL-Main 2026
💡 一句话要点
BWLA:突破LLM的W1A后训练量化壁垒,实现1比特权重和低比特激活
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练量化 二值化 低比特量化 模型压缩 模型加速 正交变换 低秩近似
📋 核心要点
- 现有LLM量化方法无法有效处理激活值中的重尾分布,导致激活值仍需高精度,限制了端到端加速。
- BWLA通过正交-克罗内克变换(OKT)和近端SVD投影(PSP)抑制激活重尾,实现1比特权重和低比特激活量化。
- 在Qwen3-32B上的实验表明,BWLA在6比特激活下显著降低了困惑度,并在零样本任务上取得了大幅提升,加速效果明显。
📝 摘要(中文)
大型语言模型(LLM)推动了自然语言处理的重大进展,但其巨大的内存和计算需求仍然阻碍了实际部署。二值化可以将权重压缩到1比特,从根本上降低计算和带宽成本。然而,现有方法无法解决激活值中的重尾问题,因此必须保持激活值的高精度,从而无法实现真正的端到端加速。为了克服这一限制,我们提出了BWLA(二值化权重和低比特激活),这是第一个后训练量化框架,它在保持高精度的同时,实现了1比特权重量化以及低比特激活(例如,6比特)。正交-克罗内克变换(OKT)通过EM最小化学习正交映射,将单峰权重转换为对称双峰形式,同时抑制激活值的重尾和不一致性。然后,近端SVD投影(PSP)通过近端SVD投影执行轻量级的低秩细化,进一步增强量化能力,且开销极小。在Qwen3-32B上,BWLA在6比特激活下达到了11.92的Wikitext2困惑度(SOTA为38),在五个零样本任务上提高了70%以上,并实现了3.26倍的推理加速,展示了在实际LLM压缩和加速方面的强大潜力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)量化后部署的难题,具体来说,现有二值化方法无法有效处理激活值中的重尾分布,导致激活值量化精度受限,无法实现真正的端到端加速,阻碍了LLM在资源受限设备上的部署。
核心思路:论文的核心思路是通过正交-克罗内克变换(OKT)将权重分布转换为更易于量化的形式,同时抑制激活值的重尾现象。然后,利用近端SVD投影(PSP)对量化后的权重进行低秩细化,进一步提升模型精度。这种方法旨在实现1比特权重和低比特激活的量化,从而显著降低LLM的计算和存储成本。
技术框架:BWLA框架主要包含两个阶段:1) 正交-克罗内克变换(OKT):通过EM算法学习正交映射,将权重分布转换为对称双峰形式,降低激活值的动态范围。2) 近端SVD投影(PSP):对量化后的权重进行低秩细化,恢复量化过程中的信息损失,提升模型性能。整个流程无需重新训练,属于后训练量化方法。
关键创新:BWLA的关键创新在于将正交变换和低秩细化相结合,有效地解决了激活值重尾问题,实现了1比特权重和低比特激活的量化。OKT通过改变权重分布来抑制激活重尾,而PSP则通过低秩细化来补偿量化误差,二者相辅相成,共同提升了量化模型的性能。与现有方法相比,BWLA无需依赖高精度激活值,能够实现真正的端到端加速。
关键设计:OKT使用EM算法学习正交矩阵,目标是最小化权重分布与目标分布之间的距离。PSP使用近端SVD投影对量化后的权重进行低秩近似,通过调整投影矩阵来优化模型性能。具体参数设置和损失函数细节在论文中有详细描述,但此处未提供。
🖼️ 关键图片
📊 实验亮点
BWLA在Qwen3-32B模型上取得了显著的实验结果。在6比特激活下,Wikitext2困惑度降低至11.92,远低于SOTA方法的38。在五个零样本任务上,BWLA的性能提升超过70%。同时,BWLA实现了3.26倍的推理加速,证明了其在LLM压缩和加速方面的有效性。
🎯 应用场景
BWLA技术可广泛应用于资源受限场景下的大型语言模型部署,例如移动设备、边缘计算设备等。通过降低LLM的计算和存储需求,BWLA能够使这些设备运行更复杂的AI模型,从而推动AI技术在各个领域的应用,如智能助手、自然语言处理、机器翻译等。该技术还有助于降低LLM的部署成本,加速其商业化进程。
📄 摘要(原文)
Large language models (LLMs) have driven major progress in NLP, yet their substantial memory and compute demands still hinder practical deployment. Binarization can compress weights to 1 bit, fundamentally lowering compute and bandwidth cost. However, existing methods cannot address activation heavy tails and thus must keep activations in high precision, preventing true end-to-end acceleration. To overcome this limitation, we propose BWLA (Binarized Weights and Low-bit Activations), the first post-training quantization framework that preserves high accuracy while achieving 1-bit weight quantization together with low-bit activations (e.g., 6 bits). The Orthogonal-Kronecker Transformation (OKT) learns an orthogonal mapping via EM minimization, converting unimodal weights into symmetric bimodal forms while suppressing activation tails and incoherence. The Proximal SVD Projection (PSP) then performs lightweight low-rank refinement through proximal SVD projection, further enhancing quantizability with minimal overhead. On Qwen3-32B, BWLA reaches a Wikitext2 perplexity of 11.92 under 6-bit activations (vs. 38 from SOTA), improves five zero-shot tasks by more than 70%, and delivers 3.26 times inference speedup, demonstrating strong potential for real-world LLM compression and acceleration.