UniSVQ: 2-bit Unified Scalar-Vector Quantization

📄 arXiv: 2606.10520v1 📥 PDF

作者: Haoyu Wang, Haiyan Zhao, Xingyu Yu, Zhangyang Yao, Xu Han, Zhiyuan Liu, Maosong Sun

分类: cs.CL

发布日期: 2026-06-09

备注: Accepted by ICML 2026


💡 一句话要点

提出UniSVQ以解决2-bit量化性能下降问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化方法 大型语言模型 推理加速 深度学习 模型压缩

📋 核心要点

  1. 现有的标量量化方法在性能上存在显著下降,而向量量化则增加了计算和存储的开销。
  2. UniSVQ通过将码字参数化为整数格的仿射变换,统一了标量和向量量化,兼顾性能与灵活性。
  3. 实验结果显示,UniSVQ在多个大型语言模型上表现优异,推理吞吐量显著提高,超越了当前的SQ方法。

📝 摘要(中文)

在后训练量化中,2-bit量化能够实现大型语言模型的低成本部署和推理加速。现有的标量量化(SQ)方法存在显著的性能下降,而向量量化(VQ)则带来了计算和存储开销。为此,本文提出了UniSVQ,一个统一的2-bit量化框架,通过将码字参数化为整数格的仿射变换,弥合了标量和向量量化之间的差距。该结构兼容优化的整数内核,同时保留了VQ的灵活性。此外,本文还引入了一种数据驱动的块级微调策略,以直接最小化量化重建误差。大量实验表明,UniSVQ在多个大型语言模型和零样本基准测试中,始终优于最先进的SQ方法,并且在性能上与先进的VQ方法相当,同时提供更高的推理吞吐量。

🔬 方法详解

问题定义:本文旨在解决现有2-bit量化方法中标量量化性能下降和向量量化计算存储开销的问题。现有方法在推理效率和模型性能之间难以取得平衡。

核心思路:UniSVQ通过将码字视为整数格的仿射变换,统一了标量和向量量化的优点,旨在在保持性能的同时降低计算和存储成本。

技术框架:该框架包括两个主要模块:首先是量化模块,通过仿射变换生成码字;其次是微调模块,采用数据驱动的块级微调策略,直接优化量化重建误差。

关键创新:UniSVQ的核心创新在于其统一的量化方法,能够在不显著增加计算开销的情况下,保持与向量量化相似的灵活性和性能。

关键设计:在设计中,采用了优化的整数内核以确保兼容性,并通过块级微调策略来最小化重建误差,确保量化后的模型性能尽可能接近原始模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,UniSVQ在多个大型语言模型上均优于现有的最先进SQ方法,且在性能上与先进的VQ方法相当。具体而言,UniSVQ在推理吞吐量上提高了显著的百分比,展示了其在实际应用中的优势。

🎯 应用场景

UniSVQ的研究成果在大型语言模型的部署和推理加速中具有重要应用价值,尤其适用于资源受限的环境,如移动设备和边缘计算。此外,该方法的灵活性使其在其他深度学习模型的量化中也具有潜在的应用前景。

📄 摘要(原文)

Post-training quantization at the 2-bit level enables low-cost deployment and inference acceleration for large language models (LLMs). Scalar quantization (SQ) and vector quantization (VQ) are two primary quantization methods, however, the former suffers from significant performance degradation, and the latter incurs computational and storage overhead. We propose UniSVQ, a unified 2-bit quantization framework that bridges scalar and vector quantization by parameterizing codewords as an affine transform of integer lattices. This structure preserves compatibility with optimized integer kernels while retaining much of VQ's flexibility. We further introduce a data-driven block-wise fine-tuning strategy to directly minimize quantization reconstruction error. Extensive experiments across multiple LLM families and zero-shot benchmarks demonstrate that UniSVQ consistently outperforms state-of-the-art SQ methods and achieves performance comparable to advanced VQ methods, while providing higher inference throughput.