LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

作者: Haoyu Wang, Xingyu Yu, Haiyan Zhao, Fengxiang Wang, Xu Han

分类: cs.CL, cs.AI

发布日期: 2026-06-09

备注: Accepted by ICML 2026

💡 一句话要点

提出LC-QAT以解决低比特量化训练效率问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 低比特模型 向量量化 深度学习 大型语言模型

📋 核心要点

现有的QAT方法在2比特精度下性能显著下降，限制了极低比特模型的应用。
LC-QAT通过学习仿射映射来表示量化权重，避免了离散代码本查找的限制，实现了端到端的可微优化。
实验结果显示，LC-QAT在多种LLM上表现优异，数据使用效率高，仅需0.1%至10%的训练数据即可达到更好的性能。

📝 摘要（中文）

量化感知训练（QAT）对于极低比特的大型语言模型（LLMs）至关重要。现有的QAT方法主要基于标量量化（SQ），虽然优化效率高，但在2比特精度下性能严重下降。另一方面，向量量化（VQ）提供了更高的表示能力，但其离散代码本查找阻碍了端到端训练。我们提出了LC-QAT，这是一种仅针对权重的2比特VQ-QAT框架，通过对离散向量的学习仿射映射来表示量化权重，从而实现高质量的后训练初始化，并在训练前向传播中无需显式代码本查找，支持完全可微的端到端优化。这种强大的后训练初始化使得LC-QAT在数据使用上极为高效。实验表明，LC-QAT在多种LLM上始终优于现有的QAT方法，仅使用0.1%至10%的训练数据。我们的结果确立了LC-QAT作为极低比特模型部署的实用且可扩展的解决方案。

🔬 方法详解

问题定义：本论文旨在解决现有QAT方法在2比特量化下性能下降的问题。当前的标量量化方法在低比特精度下表现不佳，而向量量化虽然具有更高的表示能力，但其离散查找机制限制了训练效率。

核心思路：LC-QAT的核心思路是通过学习仿射映射来表示量化权重，从而实现高质量的后训练初始化，并支持完全可微的端到端优化。这种设计避免了传统方法中的代码本查找问题，提高了训练效率。

技术框架：LC-QAT框架包括权重的量化表示、学习仿射映射、后训练初始化和端到端优化等主要模块。通过这些模块的协同工作，框架实现了高效的量化训练。

关键创新：LC-QAT的主要创新在于其通过学习仿射映射来替代传统的离散代码本查找，使得量化权重的表示更加灵活和高效。这一创新使得模型在低比特量化下仍能保持较高的性能。

关键设计：在设计中，LC-QAT采用了特定的损失函数来优化量化权重的表示，并通过调整网络结构来适应低比特量化的需求。具体的参数设置和训练策略也经过精心设计，以确保模型的高效性和稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LC-QAT在多种大型语言模型上均优于现有的QAT方法，使用的数据量仅为0.1%至10%。这一显著的性能提升证明了LC-QAT在极低比特量化训练中的有效性和实用性。

🎯 应用场景

LC-QAT的研究成果在极低比特模型的部署中具有广泛的应用潜力，尤其是在资源受限的环境中，如移动设备和边缘计算。其高效的数据使用和优越的性能使得大规模应用成为可能，推动了低比特模型在实际场景中的应用价值。

📄 摘要（原文）

Quantization-aware training (QAT) is essential for extremely low-bit large language models (LLMs). Current QAT methods are mainly based on scalar quantization (SQ), which enables efficient optimization but suffers from severe performance degradation at 2-bit precision. On the other hand, vector quantization (VQ) provides substantially higher representational capacity, but its discrete codebook lookup prevents end-to-end training. We propose LC-QAT, a 2-bit weight-only VQ-QAT framework that represents quantized weights via a learned affine mapping over discrete vectors, which yields a high-quality PTQ initialization and enables fully differentiable end-to-end optimization without explicit codebook lookup in the training forward pass. This strong post-training initialization makes LC-QAT highly data-efficient. Experiments across diverse LLMs demonstrate that LC-QAT consistently outperforms state-of-the-art QAT methods while using only 0.1%--10% of the training data. Our results establish LC-QAT as a practical and scalable solution for extreme low-bit model deployment.

LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理