Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

作者: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

分类: cs.LG, cs.CL

发布日期: 2024-11-26 (更新: 2024-11-27)

备注: Work in Progress

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

揭示低比特量化偏好欠训练LLM：百兆token训练量化LLM的缩放法则

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低比特量化 大型语言模型 量化性能下降 缩放法则 模型训练程度 欠训练 模型压缩

📋 核心要点

现有研究缺乏对量化后性能下降（QiD）与模型训练程度之间关系的深入理解，尤其是在大规模语言模型中。
该研究通过分析大量量化LLM检查点，推导了QiD与模型大小、训练token数量和量化比特宽度之间的缩放法则。
研究表明，低比特量化更适合欠训练的模型，并预测了未来更大规模、更多token训练的模型的量化性能可能不佳。

📝 摘要（中文）

本文揭示了低比特量化偏好欠训练的大型语言模型（LLM）。研究发现，模型规模越大或训练token越少，应用低比特量化时量化引起的性能下降（QiD）越小；而规模较小但训练token充足的模型则会遭受显著的QiD。为了更深入地了解这种趋势，我们在受控环境中研究了超过1500个不同大小和训练水平（欠训练或充分训练）的量化LLM检查点，推导了缩放法则，以理解QiD与训练token数量、模型大小和比特宽度等因素之间的关系。基于这些缩放法则，我们提出了一种新的视角，即可以使用QiD来衡量LLM的训练水平，并确定充分训练各种大小的LLM所需的训练token数量。此外，我们使用缩放法则来预测不同大小的LLM在经过100万亿token训练后的量化性能。我们的预测表明，未来使用超过100万亿token训练的模型的低比特量化性能可能并不理想。这给未来的低比特量化带来潜在挑战，并强调在评估低比特量化研究时需要注意模型的训练水平。为了促进未来对该问题的研究，我们发布了本文中使用的所有1500多个量化检查点。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在低比特量化过程中，量化引起的性能下降（QiD）与模型训练程度之间的关系问题。现有方法缺乏对这种关系的系统性研究，无法有效指导LLM的量化策略，尤其是在模型规模和训练数据量不断增长的背景下。现有方法无法解释为何某些模型量化后性能下降严重，而另一些模型则相对稳定。

核心思路：论文的核心思路是通过大规模实验，系统性地研究不同大小、不同训练程度的LLM在量化后的性能表现，从而揭示QiD与模型大小、训练token数量和量化比特宽度之间的缩放法则。通过这些缩放法则，可以预测不同训练程度的模型在量化后的性能，并指导量化策略的选择。论文认为，QiD可以作为衡量模型训练程度的指标。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 构建不同大小和训练程度的LLM检查点；2) 对这些检查点进行不同比特宽度的量化；3) 评估量化后的模型性能，计算QiD；4) 分析QiD与模型大小、训练token数量和比特宽度之间的关系，推导缩放法则；5) 使用缩放法则预测未来更大规模模型的量化性能。

关键创新：论文最重要的技术创新点在于发现了低比特量化偏好欠训练LLM的现象，并提出了使用QiD来衡量LLM训练水平的新视角。与现有方法相比，该研究不仅关注量化算法本身，更关注模型训练程度对量化性能的影响，从而为LLM的量化提供了更全面的指导。

关键设计：论文的关键设计包括：1) 构建了超过1500个不同大小和训练程度的LLM检查点，保证了实验数据的丰富性和多样性；2) 采用了多种比特宽度的量化方案，全面评估了量化比特宽度对QiD的影响；3) 使用缩放法则对未来更大规模模型的量化性能进行了预测，为未来的研究方向提供了参考。

🖼️ 关键图片

📊 实验亮点

研究通过对超过1500个量化LLM检查点的分析，揭示了低比特量化偏好欠训练LLM的现象。实验结果表明，模型规模越大或训练token越少，量化引起的性能下降越小。基于这些发现，研究推导了QiD与模型大小、训练token数量和比特宽度之间的缩放法则，并预测了未来更大规模模型的量化性能。

🎯 应用场景

该研究成果可应用于指导大型语言模型的量化部署，尤其是在资源受限的场景下。通过了解模型训练程度与量化性能之间的关系，可以选择合适的量化策略，在保证模型性能的同时，降低计算和存储成本。此外，该研究提出的QiD作为训练程度指标的思路，可以用于评估模型的训练状态，指导模型训练过程。

📄 摘要（原文）

We reveal that low-bit quantization favors undertrained large language models (LLMs) by observing that models with larger sizes or fewer training tokens experience less quantization-induced degradation (QiD) when applying low-bit quantization, whereas smaller models with extensive training tokens suffer significant QiD. To gain deeper insights into this trend, we study over 1500 quantized LLM checkpoints of various sizes and at different training levels (undertrained or fully trained) in a controlled setting, deriving scaling laws for understanding the relationship between QiD and factors such as the number of training tokens, model size and bit width. With the derived scaling laws, we propose a novel perspective that we can use QiD to measure an LLM's training levels and determine the number of training tokens required for fully training LLMs of various sizes. Moreover, we use the scaling laws to predict the quantization performance of different-sized LLMs trained with 100 trillion tokens. Our projection shows that the low-bit quantization performance of future models, which are expected to be trained with over 100 trillion tokens, may NOT be desirable. This poses a potential challenge for low-bit quantization in the future and highlights the need for awareness of a model's training level when evaluating low-bit quantization research. To facilitate future research on this problem, we release all the 1500+ quantized checkpoints used in this work at https://huggingface.co/Xu-Ouyang.

Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理