LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization
作者: Haoyu Wang, Xingyu Yu, Haiyan Zhao, Fengxiang Wang, Xu Han
分类: cs.CL, cs.AI
发布日期: 2026-06-09
备注: Accepted by ICML 2026
💡 一句话要点
提出LC-QAT以解决低比特量化训练效率问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化感知训练 低比特模型 向量量化 深度学习 大型语言模型
📋 核心要点
- 现有的QAT方法在2比特精度下性能显著下降,限制了极低比特模型的应用。
- LC-QAT通过学习仿射映射来表示量化权重,避免了离散代码本查找的限制,实现了端到端的可微优化。
- 实验结果显示,LC-QAT在多种LLM上表现优异,数据使用效率高,仅需0.1%至10%的训练数据即可达到更好的性能。
📝 摘要(中文)
量化感知训练(QAT)对于极低比特的大型语言模型(LLMs)至关重要。现有的QAT方法主要基于标量量化(SQ),虽然优化效率高,但在2比特精度下性能严重下降。另一方面,向量量化(VQ)提供了更高的表示能力,但其离散代码本查找阻碍了端到端训练。我们提出了LC-QAT,这是一种仅针对权重的2比特VQ-QAT框架,通过对离散向量的学习仿射映射来表示量化权重,从而实现高质量的后训练初始化,并在训练前向传播中无需显式代码本查找,支持完全可微的端到端优化。这种强大的后训练初始化使得LC-QAT在数据使用上极为高效。实验表明,LC-QAT在多种LLM上始终优于现有的QAT方法,仅使用0.1%至10%的训练数据。我们的结果确立了LC-QAT作为极低比特模型部署的实用且可扩展的解决方案。
🔬 方法详解
问题定义:本论文旨在解决现有QAT方法在2比特量化下性能下降的问题。当前的标量量化方法在低比特精度下表现不佳,而向量量化虽然具有更高的表示能力,但其离散查找机制限制了训练效率。
核心思路:LC-QAT的核心思路是通过学习仿射映射来表示量化权重,从而实现高质量的后训练初始化,并支持完全可微的端到端优化。这种设计避免了传统方法中的代码本查找问题,提高了训练效率。
技术框架:LC-QAT框架包括权重的量化表示、学习仿射映射、后训练初始化和端到端优化等主要模块。通过这些模块的协同工作,框架实现了高效的量化训练。
关键创新:LC-QAT的主要创新在于其通过学习仿射映射来替代传统的离散代码本查找,使得量化权重的表示更加灵活和高效。这一创新使得模型在低比特量化下仍能保持较高的性能。
关键设计:在设计中,LC-QAT采用了特定的损失函数来优化量化权重的表示,并通过调整网络结构来适应低比特量化的需求。具体的参数设置和训练策略也经过精心设计,以确保模型的高效性和稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LC-QAT在多种大型语言模型上均优于现有的QAT方法,使用的数据量仅为0.1%至10%。这一显著的性能提升证明了LC-QAT在极低比特量化训练中的有效性和实用性。
🎯 应用场景
LC-QAT的研究成果在极低比特模型的部署中具有广泛的应用潜力,尤其是在资源受限的环境中,如移动设备和边缘计算。其高效的数据使用和优越的性能使得大规模应用成为可能,推动了低比特模型在实际场景中的应用价值。
📄 摘要(原文)
Quantization-aware training (QAT) is essential for extremely low-bit large language models (LLMs). Current QAT methods are mainly based on scalar quantization (SQ), which enables efficient optimization but suffers from severe performance degradation at 2-bit precision. On the other hand, vector quantization (VQ) provides substantially higher representational capacity, but its discrete codebook lookup prevents end-to-end training. We propose LC-QAT, a 2-bit weight-only VQ-QAT framework that represents quantized weights via a learned affine mapping over discrete vectors, which yields a high-quality PTQ initialization and enables fully differentiable end-to-end optimization without explicit codebook lookup in the training forward pass. This strong post-training initialization makes LC-QAT highly data-efficient. Experiments across diverse LLMs demonstrate that LC-QAT consistently outperforms state-of-the-art QAT methods while using only 0.1%--10% of the training data. Our results establish LC-QAT as a practical and scalable solution for extreme low-bit model deployment.