Improving Quantization with Post-Training Model Expansion
作者: Giuseppe Franco, Pablo Monteagudo-Lago, Ian Colbert, Nicholas Fraser, Michaela Blott
分类: cs.LG, cs.AI, cs.AR
发布日期: 2025-03-21 (更新: 2025-08-28)
💡 一句话要点
提出后训练模型扩展方法,在量化LLM时提升模型质量并降低体积。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后训练量化 模型扩展 大型语言模型 低比特量化 模型优化
📋 核心要点
- 现有量化方法通常通过减小模型体积来降低推理成本,但可能牺牲模型质量,难以满足应用需求。
- 该论文提出后训练模型扩展策略,通过选择性地增加模型参数,在量化过程中提升模型质量。
- 实验表明,对于Llama3 1B模型,该方法在4位量化下,显著缩小了与全精度模型的性能差距,且体积小于BF16模型。
📝 摘要(中文)
模型的大小一直是衡量其质量和成本的重要指标。因此,模型成本和质量之间的权衡已被广泛研究。后训练优化(如量化和剪枝)通常侧重于减少预训练模型的总体体积,以降低推理成本,同时保持模型质量。然而,最近的进展引入了一些有趣的优化技术,这些技术在后训练阶段扩展模型,增加模型大小,从而在减少体积的同时提高质量。例如,为了实现4位权重和激活量化,不相干处理通常需要在计算图中插入在线Hadamard旋转,而保持高度敏感的权重通常需要额外的更高精度计算。然而,如果无法满足应用需求,通常的解决方案是放宽量化约束。与此相反,我们证明了后训练模型扩展是一种可行的策略,可以在量化协同设计空间内提高模型质量,并提供理论依据。我们表明,可以逐步且有选择地扩展预训练的大型语言模型(LLM)的大小,以提高模型质量,而无需端到端重新训练。特别地,当将Llama3 1B的权重和激活量化为4位时,相对于QuaRot和SpinQuant,我们将与全精度困惑度的差距平均降低了9%,而参数仅增加了5%,这仍然比BF16参考模型减少了3.8%的体积。
🔬 方法详解
问题定义:论文旨在解决在对大型语言模型(LLM)进行低比特量化时,模型性能显著下降的问题。现有的量化方法,如直接量化或引入额外计算(例如Hadamard变换),要么牺牲模型精度,要么增加计算复杂度,难以在精度和效率之间取得平衡。
核心思路:论文的核心思路是“后训练模型扩展”,即在量化后,有选择性地增加模型的参数量,以弥补量化带来的精度损失。这种扩展不是随机的,而是基于对模型内部结构和量化过程的理解,针对性地增强模型的表达能力。
技术框架:该方法主要包含以下几个阶段:1) 对预训练的LLM进行初步量化(例如4比特量化);2) 分析量化后模型的性能瓶颈,识别对量化敏感的权重或激活;3) 选择性地扩展模型,例如增加某些层的维度,或者引入更高精度的计算分支;4) 对扩展后的模型进行微调,以适应新的参数和结构。整个过程无需从头训练,而是基于预训练模型进行优化。
关键创新:该方法最重要的创新在于提出了“模型扩展”这一概念,打破了传统量化方法只关注模型压缩的思路。通过增加少量参数,可以显著提升量化模型的性能,实现更好的精度-效率平衡。此外,选择性扩展策略避免了盲目增加参数带来的计算负担。
关键设计:论文的关键设计包括:1) 如何选择需要扩展的层或权重:可能基于梯度信息、激活方差等指标来评估量化敏感性;2) 如何扩展模型:可以增加隐藏层维度、引入残差连接、或者使用混合精度量化等方式;3) 如何微调扩展后的模型:可以使用知识蒸馏、对抗训练等技术,使模型更好地适应量化和扩展带来的变化。
📊 实验亮点
实验结果表明,对于Llama3 1B模型,使用该方法进行4位量化后,与全精度模型的困惑度差距平均降低了9%,优于QuaRot和SpinQuant等现有方法。同时,参数量仅增加了5%,模型体积仍然比BF16参考模型减少了3.8%。这表明该方法能够在显著提升模型质量的同时,保持较高的压缩率。
🎯 应用场景
该研究成果可应用于各种需要低功耗、低延迟的大型语言模型部署场景,例如移动设备、边缘计算设备等。通过在量化后选择性地扩展模型,可以在资源受限的环境下实现高性能的LLM推理,加速人工智能在嵌入式系统中的应用。
📄 摘要(原文)
The size of a model has been a strong predictor of its quality, as well as its cost. As such, the trade-off between model cost and quality has been well-studied. Post-training optimizations like quantization and pruning have typically focused on reducing the overall volume of pre-trained models to reduce inference costs while maintaining model quality. However, recent advancements have introduced optimization techniques that, interestingly, expand models post-training, increasing model size to improve quality when reducing volume. For instance, to enable 4-bit weight and activation quantization, incoherence processing often necessitates inserting online Hadamard rotations in the compute graph, and preserving highly sensitive weights often calls for additional higher precision computations. However, if application requirements cannot be met, the prevailing solution is to relax quantization constraints. In contrast, we demonstrate post-training model expansion is a viable strategy to improve model quality within a quantization co-design space, and provide theoretical justification. We show it is possible to progressively and selectively expand the size of a pre-trained large language model (LLM) to improve model quality without end-to-end retraining. In particular, when quantizing the weights and activations to 4 bits for Llama3 1B, we reduce the gap to full-precision perplexity by an average of 9% relative to both QuaRot and SpinQuant with only 5% more parameters, which is still a 3.8% reduction in volume relative to a BF16 reference model.