Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs

📄 arXiv: 2405.20835v3 📥 PDF

作者: Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-05-31 (更新: 2024-06-05)


💡 一句话要点

校准集和异常值对现代LLM量化的影响减弱:关注推理速度优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后训练量化 大型语言模型 校准集 异常值 推理速度 模型鲁棒性 INT8量化

📋 核心要点

  1. 现有PTQ方法过度依赖校准集来处理异常值,但新模型对异常值的敏感度降低,导致量化策略可能不再是最优。
  2. 论文分析了不同LLM在PTQ过程中对校准集和异常值的反应,揭示了新模型对异常值的鲁棒性。
  3. 实验结果表明,对于新模型,应将PTQ的重点从异常值处理转向推理速度优化,以提升整体性能。

📝 摘要(中文)

后训练量化(PTQ)通过降低内存使用,提高LLM的运行速度和在更易获取的硬件上的兼容性,从而增强其效率,但会带来轻微的性能下降。本文探讨了校准集在PTQ中的作用,特别是它们对各种开源LLM中隐藏层激活的影响。校准集对于评估激活幅度和识别异常值至关重要,异常值会扭曲量化范围并对性能产生负面影响。分析表明,不同模型之间的量化效果存在显著差异。较早的OPT模型对异常值高度敏感,性能下降明显。而Llama-2 7B、Llama-3 8B、Command-R 35B和Mistral 7B等较新的模型表现出强大的鲁棒性,Mistral 7B几乎不受异常值的影响,激活稳定。这些发现表明可能需要改变PTQ策略。随着预训练方法的进步降低了异常值的相关性,迫切需要重新评估当前量化文献的基础,将重点转向优化推理速度,而不是主要关注异常值保留,以适应最先进LLM不断发展的特性。

🔬 方法详解

问题定义:论文旨在解决后训练量化(PTQ)过程中,校准集和异常值对大型语言模型(LLM)性能的影响问题。现有的PTQ方法通常依赖校准集来识别和处理异常值,以避免量化范围被扭曲,从而导致性能下降。然而,这种方法可能对于新型LLM来说不再是最优,因为这些模型在预训练阶段已经具备了更强的鲁棒性,对异常值的敏感度降低。

核心思路:论文的核心思路是重新评估校准集在PTQ中的作用,并验证新型LLM是否对异常值具有更强的鲁棒性。通过分析不同模型的激活分布和量化性能,论文旨在揭示新型LLM的特性,并提出更适合这些模型的PTQ策略。核心在于转变PTQ的关注点,从异常值处理转向推理速度优化。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择具有代表性的开源LLM,包括OPT、Llama-2 7B、Llama-3 8B、Command-R 35B和Mistral 7B等。2) 使用不同的校准集对这些模型进行PTQ。3) 分析量化前后模型的激活分布,特别是异常值的数量和幅度。4) 评估量化后模型的性能,并与原始模型进行比较。5) 分析校准集大小和内容对量化性能的影响。

关键创新:论文最重要的技术创新点在于发现了新型LLM对异常值具有更强的鲁棒性。这一发现挑战了现有的PTQ理论,并为未来的PTQ研究指明了新的方向。与现有方法的本质区别在于,论文不再将异常值处理作为PTQ的首要任务,而是强调推理速度的优化。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM,覆盖不同架构和规模。2) 使用不同的校准集,包括随机数据和真实数据。3) 采用标准的PTQ方法,例如INT8量化。4) 使用常见的评估指标,例如困惑度(perplexity)和下游任务准确率。5) 对激活分布进行可视化分析,以便更好地理解异常值的特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,较新的LLM(如Llama-2 7B、Llama-3 8B、Command-R 35B和Mistral 7B)对异常值具有更强的鲁棒性,Mistral 7B甚至几乎不受异常值的影响。相比之下,较老的OPT模型对异常值高度敏感,性能下降明显。这表明,对于新型LLM,PTQ的重点应转向推理速度优化,而非异常值处理。

🎯 应用场景

该研究成果可应用于各种需要高效部署LLM的场景,例如移动设备、边缘计算和资源受限的环境。通过优化PTQ策略,可以降低LLM的内存占用和计算复杂度,从而使其能够在更多平台上运行,并提高推理速度,加速AI应用的普及。

📄 摘要(原文)

Post-Training Quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of calibration sets in PTQ, specifically their effect on hidden activations in various notable open-source LLMs. Calibration sets are crucial for evaluating activation magnitudes and identifying outliers, which can distort the quantization range and negatively impact performance. Our analysis reveals a marked contrast in quantization effectiveness across models. The older OPT model, upon which much of the quantization literature is based, shows significant performance deterioration and high susceptibility to outliers with varying calibration sets. In contrast, newer models like Llama-2 7B, Llama-3 8B, Command-R 35B, and Mistral 7B demonstrate strong robustness, with Mistral 7B showing near-immunity to outliers and stable activations. These findings suggest a shift in PTQ strategies might be needed. As advancements in pre-training methods reduce the relevance of outliers, there is an emerging need to reassess the fundamentals of current quantization literature. The emphasis should pivot towards optimizing inference speed, rather than primarily focusing on outlier preservation, to align with the evolving characteristics of state-of-the-art LLMs.