Post Training Quantization of Large Language Models with Microscaling Formats

📄 arXiv: 2405.07135v3 📥 PDF

作者: Sayeh Sharify, Utkarsh Saxena, Zifei Xu, Wanzin Yazar, Ilya Soloveychik, Xin Wang

分类: cs.LG, cs.AI

发布日期: 2024-05-12 (更新: 2024-10-15)


💡 一句话要点

结合微缩放格式量化,实现大语言模型的轻量化部署

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练量化 模型压缩 微缩放格式 SmoothQuant AWQ GPTQ

📋 核心要点

  1. 大型语言模型计算和存储成本高昂,限制了其在资源受限环境中的应用。
  2. 论文核心在于结合SmoothQuant、AWQ和GPTQ等PTQ技术,并扩展到微缩放格式,实现更高效的量化。
  3. 实验表明,结合多种PTQ方法,可将模型量化到4位权重和8位激活,精度损失可忽略不计。

📝 摘要(中文)

大型语言模型(LLMs)在复杂的语言建模任务中表现出色,但也带来了巨大的计算和存储挑战。本文探讨了量化技术在缓解这些挑战方面的潜力。我们系统地研究了三种著名的后训练量化(PTQ)技术SmoothQuant、AWQ和GPTQ的组合应用,并全面分析了它们之间的相互作用及其对推进LLM量化的影响。我们通过启用量化到微缩放(MX)格式,增强了这些方法的多功能性,从而将这些PTQ算法的应用范围扩展到其原始定点格式目标之外。我们表明,结合不同的PTQ方法,能够使用MXINT格式将模型量化为4位权重和8位激活,与未压缩的基线相比,精度损失可忽略不计。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)虽然性能卓越,但其庞大的参数规模带来了巨大的计算和存储开销,这限制了它们在边缘设备或资源受限环境中的部署。现有的后训练量化(PTQ)方法虽然可以降低模型大小,但通常针对特定的定点格式,且单独使用时可能无法达到理想的压缩率和精度保持。

核心思路:本文的核心思路是将多种PTQ技术(SmoothQuant、AWQ和GPTQ)结合起来,并扩展它们的应用范围,使其能够支持微缩放(Microscaling,MX)格式。通过协同利用不同PTQ技术的优势,并借助MX格式的灵活性,实现更高的压缩率,同时尽可能地减少精度损失。这样设计的目的是在模型大小和性能之间找到一个更好的平衡点。

技术框架:整体框架包括以下几个主要阶段:1) 使用SmoothQuant对模型进行平滑处理,降低激活值的动态范围;2) 应用AWQ算法,对权重进行量化,并保护重要的权重;3) 使用GPTQ算法进一步优化量化后的权重;4) 将量化后的模型转换为微缩放(MX)格式,以进一步压缩模型大小。这个流程旨在逐步降低模型的大小,同时尽可能地保留模型的性能。

关键创新:最重要的技术创新点在于将多种PTQ技术结合使用,并将其扩展到微缩放格式。传统的PTQ方法通常只关注单一的量化策略和固定的数据类型。而本文通过结合多种技术,并引入MX格式,实现了更灵活和高效的量化方案。这种组合和扩展的方式,使得量化后的模型能够在保持精度的前提下,实现更高的压缩率。

关键设计:论文的关键设计包括:1) 精心选择和调整SmoothQuant、AWQ和GPTQ的参数,以实现最佳的协同效果;2) 设计了支持MX格式的量化方案,使其能够与现有的PTQ技术兼容;3) 针对不同的模型和任务,探索了不同的PTQ技术组合方式,以找到最佳的量化策略。此外,论文还关注了量化过程中的精度损失问题,并采取了一系列措施来减少精度损失。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,通过结合SmoothQuant、AWQ和GPTQ等PTQ技术,并使用MXINT格式,可以将LLM量化到4位权重和8位激活,同时保持与未压缩基线相比可忽略不计的精度损失。这一结果突显了该方法在实现LLM高效量化方面的潜力,为LLM在资源受限环境中的部署铺平了道路。

🎯 应用场景

该研究成果可广泛应用于各种需要部署大型语言模型的场景,尤其是在资源受限的环境中,如移动设备、嵌入式系统和边缘计算设备。通过降低模型大小和计算复杂度,可以使LLMs在这些平台上运行,从而实现更智能的本地化服务,例如离线翻译、智能助手和实时语音识别。此外,该技术还有助于降低云计算成本,提高LLM服务的可扩展性。

📄 摘要(原文)

Large Language Models (LLMs) have distinguished themselves with outstanding performance in complex language modeling tasks, yet they come with significant computational and storage challenges. This paper explores the potential of quantization to mitigate these challenges. We systematically study the combined application of three well-known post-training techniques, SmoothQuant, AWQ, and GPTQ, and provide a comprehensive analysis of their interactions and implications for advancing LLM quantization. We enhance the versatility of these methods by enabling quantization to microscaling (MX) formats, extending the applicability of these PTQ algorithms beyond their original fixed-point format targets. We show that combining different PTQ methods enables us to quantize models to 4-bit weights and 8-bit activations using the MXINT format with negligible accuracy loss compared to the uncompressed baseline.