Scaling Law for Language Models Training Considering Batch Size

📄 arXiv: 2412.01505v1 📥 PDF

作者: Xian Shuai, Yiding Wang, Yimeng Wu, Xin Jiang, Xiaozhe Ren

分类: cs.CL, cs.LG

发布日期: 2024-12-02


💡 一句话要点

研究批量大小对大语言模型训练的影响,提出考虑批量大小的缩放定律。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 缩放定律 批量大小 训练优化 超参数优化

📋 核心要点

  1. 现有大语言模型训练中,批量大小这一关键超参数的影响尚不明确,缺乏系统性的研究。
  2. 本文通过大量实验,研究了不同批量大小和学习率对模型收敛性和泛化能力的影响,并建立了相应的缩放定律。
  3. 实验结果验证了提出的批量大小缩放定律,为在特定资源约束下优化LLM训练策略提供了有效指导。

📝 摘要(中文)

近年来,大型语言模型(LLMs)取得了显著进展,缩放定律在这一快速发展中起着关键作用。本文通过实验研究了一个关键超参数,即全局批量大小,如何影响LLM的训练过程。我们首先训练了参数量从1.25亿到26亿不等的语言模型,使用了高达3000亿的高质量tokens。通过这些实验,我们建立了模型大小和训练数据量之间的基本缩放定律。然后,我们研究了不同的批量大小和学习率如何影响这些模型的收敛性和泛化能力。我们的分析得出了两种不同情况下的批量大小缩放定律:在固定计算预算下和在固定训练数据量下。对越来越大的模型进行的推断实验验证了我们预测的定律,这为在特定资源约束下优化LLM训练策略提供了指导。

🔬 方法详解

问题定义:论文旨在研究大语言模型训练过程中,全局批量大小这一关键超参数对模型性能的影响。现有方法缺乏对批量大小与模型大小、训练数据量之间关系的深入理解,难以在有限的计算资源下优化训练策略。

核心思路:论文的核心思路是通过大量的实验,系统性地研究不同批量大小和学习率对模型收敛性和泛化能力的影响,从而建立批量大小的缩放定律。该缩放定律能够指导在固定计算预算或固定训练数据量的情况下,如何选择合适的批量大小以获得最佳的模型性能。

技术框架:论文的整体框架包括以下几个阶段:1) 使用不同参数规模(1.25亿到26亿)的语言模型,以及高达3000亿的高质量tokens进行训练,建立模型大小和训练数据量之间的基本缩放定律。2) 针对不同的批量大小和学习率组合,训练上述模型,并分析其对模型收敛性和泛化能力的影响。3) 基于实验结果,推导出在固定计算预算和固定训练数据量两种情况下的批量大小缩放定律。4) 通过对更大规模模型的推断实验,验证所提出的缩放定律的有效性。

关键创新:论文的关键创新在于建立了批量大小的缩放定律,该定律能够量化批量大小与模型性能之间的关系,并为在特定资源约束下优化LLM训练策略提供了理论指导。与现有方法相比,该研究更加关注批量大小这一关键超参数的影响,并提出了相应的优化策略。

关键设计:论文的关键设计包括:1) 选择了不同参数规模的语言模型,以研究批量大小对不同规模模型的影响。2) 使用了高质量的tokens进行训练,以保证实验结果的可靠性。3) 针对不同的批量大小和学习率组合,进行了大量的实验,以获得充分的统计数据。4) 通过对更大规模模型的推断实验,验证了所提出的缩放定律的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了批量大小的缩放定律,并提供了在固定计算预算和固定训练数据量两种情况下的具体优化策略。实验结果表明,在固定计算预算下,适当减小批量大小可以提高模型性能;而在固定训练数据量下,则需要根据模型规模和数据量选择合适的批量大小。

🎯 应用场景

该研究成果可应用于大语言模型的训练优化,帮助研究人员和工程师在有限的计算资源下,选择合适的批量大小和学习率,从而提高模型训练效率和性能。此外,该研究还可以为其他机器学习模型的训练提供参考,指导超参数的优化。

📄 摘要(原文)

Large language models (LLMs) have made remarkable advances in recent years, with scaling laws playing a critical role in this rapid progress. In this paper, we empirically investigate how a critical hyper-parameter, i.e., the global batch size, influences the LLM training prdocess. We begin by training language models ranging from 125 million to 2.6 billion parameters, using up to 300 billion high-quality tokens. Through these experiments, we establish a basic scaling law on model size and training data amount. We then examine how varying batch sizes and learning rates affect the convergence and generalization of these models. Our analysis yields batch size scaling laws under two different cases: with a fixed compute budget, and with a fixed amount of training data. Extrapolation experiments on models of increasing sizes validate our predicted laws, which provides guidance for optimizing LLM training strategies under specific resource constraints.