Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

📄 arXiv: 2401.00448v3 📥 PDF

作者: Nikhil Sardana, Jacob Portes, Sasha Doubov, Jonathan Frankle

分类: cs.LG, cs.CL

发布日期: 2023-12-31 (更新: 2025-04-14)

备注: 16 pages, 7 figures, In the 41st International Conference on Machine Learning, 2024


💡 一句话要点

修正Chinchilla缩放法则,考虑推理成本优化大语言模型训练

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 缩放法则 推理成本 Chinchilla scaling laws 模型优化 训练策略 计算成本

📋 核心要点

  1. 现有LLM缩放法则(如Chinchilla)忽略了推理成本,导致训练出的模型在实际部署中可能并非最优。
  2. 论文修改Chinchilla缩放法则,将推理成本纳入考量,从而确定给定质量和推理需求下的最佳模型参数量和训练数据量。
  3. 实验表明,对于有较大推理需求的场景,应训练更小但训练更久的模型,并验证了极端token/参数比例下的模型质量提升。

📝 摘要(中文)

大型语言模型(LLM)缩放法则是一种经验公式,用于估计模型质量随参数数量和训练数据增加而产生的变化。然而,包括流行的Deepmind Chinchilla缩放法则在内的这些公式,忽略了推理的成本。本文修改了Chinchilla缩放法则,以计算在给定质量和推理需求下训练和部署模型的最佳LLM参数数量和预训练数据大小。我们从计算预算和实际成本两方面进行了分析,发现期望有相当大的推理需求(约10亿次请求)的LLM研究人员应该训练比Chinchilla-optimal更小和更长的模型。此外,我们训练了47个不同大小和参数数量的模型来验证我们的公式,并发现模型质量随着每个参数的token数量扩展到极端范围(高达10,000)而持续提高。最后,我们消融了用于拟合Chinchilla缩放法则系数的过程,发现仅从在典型token/参数比率下收集的数据开发缩放法则会高估在这些极端范围内的额外token的影响。

🔬 方法详解

问题定义:现有的LLM缩放法则,如Chinchilla scaling laws,主要关注训练成本,而忽略了模型部署后的推理成本。在实际应用中,推理成本可能占据总成本的很大一部分,因此,仅仅优化训练过程可能无法得到整体最优的模型。论文旨在解决如何在考虑推理成本的前提下,确定最优的模型大小和训练数据量的问题。

核心思路:论文的核心思路是将推理成本纳入到缩放法则的优化目标中。通过修改Chinchilla scaling laws,论文提出了一个新的优化目标,该目标不仅考虑了训练所需的计算资源,还考虑了推理所需的计算资源。通过最小化总的计算成本(训练+推理),可以得到在给定推理需求下的最优模型大小和训练数据量。

技术框架:论文的技术框架主要包括以下几个部分:1) 修改Chinchilla scaling laws,引入推理成本;2) 定义总成本函数,包括训练成本和推理成本;3) 通过优化总成本函数,得到最优的模型大小和训练数据量;4) 通过实验验证修改后的缩放法则的有效性。具体来说,论文首先分析了推理成本与模型大小、推理次数等因素的关系,然后将这些关系融入到Chinchilla scaling laws中,得到了一个包含推理成本的缩放法则。接着,论文定义了一个总成本函数,该函数包括训练成本和推理成本,并且可以通过调整模型大小和训练数据量来最小化该函数。最后,论文通过训练一系列不同大小的模型,并测量它们的性能和推理成本,验证了修改后的缩放法则的有效性。

关键创新:论文的关键创新在于将推理成本纳入到LLM缩放法则的优化目标中。这使得训练出的模型在实际部署中能够达到整体最优,而不仅仅是训练过程最优。此外,论文还发现,对于有较大推理需求的场景,应该训练更小但训练更久的模型,这与传统的Chinchilla scaling laws的结论有所不同。

关键设计:论文的关键设计包括:1) 推理成本的建模方式,论文需要准确地估计推理成本与模型大小、推理次数等因素的关系;2) 总成本函数的定义,论文需要合理地权衡训练成本和推理成本;3) 实验验证方案,论文需要设计合理的实验来验证修改后的缩放法则的有效性。具体来说,论文使用了经验公式来估计推理成本,并使用加权平均的方式来定义总成本函数。在实验验证方面,论文训练了47个不同大小的模型,并测量了它们的性能和推理成本。

📊 实验亮点

论文训练了47个不同大小的模型,验证了修改后的缩放法则的有效性。实验结果表明,对于有较大推理需求的场景,应该训练更小但训练更久的模型。此外,实验还发现,模型质量随着每个参数的token数量扩展到极端范围(高达10,000)而持续提高,这挑战了传统的缩放法则的认知。

🎯 应用场景

该研究成果可应用于各种需要大规模语言模型服务的场景,例如智能客服、机器翻译、文本生成等。通过考虑推理成本,可以帮助企业或研究机构更有效地训练和部署LLM,降低运营成本,提高服务质量。未来的研究可以进一步探索更精确的推理成本模型,以及针对不同应用场景的定制化缩放法则。

📄 摘要(原文)

Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular Deepmind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal. Furthermore, we train 47 models of varying sizes and parameter counts to validate our formula and find that model quality continues to improve as we scale tokens per parameter to extreme ranges (up to 10,000). Finally, we ablate the procedure used to fit the Chinchilla scaling law coefficients and find that developing scaling laws only from data collected at typical token/parameter ratios overestimates the impact of additional tokens at these extreme ranges.