Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws
作者: Jinbo Wang, Binghui Li, Zhanpeng Zhou, Mingze Wang, Yuxuan Sun, Jiaqi Zhang, Xunliang Cai, Lei Wu
分类: cs.LG, math.OC, stat.ML
发布日期: 2026-02-15 (更新: 2026-02-23)
备注: 34 pages, accepted by ICLR 2026 as a conference paper
💡 一句话要点
基于函数缩放律优化批量大小调度,实现快速追赶与延迟切换
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 批量大小调度 函数缩放律 深度学习训练 大型语言模型 预训练 优化算法 快速追赶效应
📋 核心要点
- 大规模深度学习训练中,批量大小调度对优化和效率至关重要,但缺乏理论指导。
- 论文利用函数缩放律(FSL)分析批量大小调度,揭示了最优调度与任务难度的关系。
- 实验表明,延迟切换到大批量训练,既能保证性能,又能显著减少数据消耗。
📝 摘要(中文)
批量大小调度(BSS)在大规模深度学习训练中至关重要,它影响优化动态和计算效率。本文表明,Li等人(2025a)提出的函数缩放律(FSL)框架为分析BSS提供了一个原则性的视角。具体而言,我们刻画了固定数据预算下的最优BSS,并表明其结构取决于任务难度。对于简单任务,最优调度在整个训练过程中保持增加批量大小。相反,对于困难任务,最优调度在大部分训练中保持小批量大小,仅在后期切换到大批量。为了解释延迟切换的出现,我们发现了一种动态机制——快速追赶效应——它也体现在大型语言模型(LLM)预训练中。从小批量切换到大批量后,损失迅速与恒定大批量轨迹对齐。利用FSL,我们表明这种效应源于累积梯度噪声的快速遗忘,追赶速度由任务难度决定。关键的是,这种效应意味着大批量可以安全地推迟到后期训练,而不会牺牲性能,同时显著减少数据消耗。最后,广泛的LLM预训练实验——涵盖高达11亿参数和1万亿token的稠密和MoE架构——验证了我们的理论预测。在所有设置中,延迟切换调度始终优于恒定批量和早期切换基线。
🔬 方法详解
问题定义:论文旨在解决大规模深度学习训练中批量大小调度(BSS)策略选择的问题。现有方法,如固定批量大小或简单的线性/指数调整,缺乏理论依据,无法根据任务难度自适应地调整批量大小,导致训练效率低下或性能损失。
核心思路:论文的核心思路是利用函数缩放律(FSL)来分析和优化BSS。FSL提供了一种描述模型性能随数据量、计算量等因素变化的理论框架。通过FSL,论文能够推导出在固定数据预算下,最优BSS的结构与任务难度的关系。核心在于找到一个能够平衡优化动态和计算效率的批量大小调度策略。
技术框架:论文的技术框架主要包括以下几个阶段:1) 利用FSL建立批量大小与训练损失之间的关系模型;2) 基于该模型,推导出在固定数据预算下,最优BSS的解析形式,并分析其与任务难度的关系;3) 提出“快速追赶效应”的概念,解释延迟切换策略的有效性;4) 通过大规模LLM预训练实验验证理论预测。
关键创新:论文最重要的技术创新点在于将函数缩放律(FSL)引入到批量大小调度问题的分析中。通过FSL,论文能够从理论上推导出最优BSS的结构,并解释了延迟切换策略的有效性。此外,论文提出的“快速追赶效应”为理解批量大小切换的动态过程提供了一个新的视角。与现有方法相比,该方法能够根据任务难度自适应地调整批量大小,从而提高训练效率和性能。
关键设计:论文的关键设计包括:1) 基于FSL构建的批量大小与训练损失之间的关系模型;2) 用于描述任务难度的参数(例如,FSL中的缩放指数);3) 用于验证理论预测的大规模LLM预训练实验,包括不同架构(Dense和MoE)和不同规模的模型。
🖼️ 关键图片
📊 实验亮点
论文通过大规模LLM预训练实验验证了理论预测。实验结果表明,在稠密和MoE架构的模型上,延迟切换调度始终优于恒定批量和早期切换基线。例如,在11亿参数的模型上,延迟切换策略能够在保证性能的前提下,显著减少数据消耗。
🎯 应用场景
该研究成果可应用于大规模深度学习模型的预训练和微调,尤其是在计算资源有限的情况下。通过采用最优的批量大小调度策略,可以在保证模型性能的同时,显著降低训练成本,加速模型开发周期。该方法对自然语言处理、计算机视觉等领域的大模型训练具有重要意义。
📄 摘要(原文)
Batch size scheduling (BSS) plays a critical role in large-scale deep learning training, influencing both optimization dynamics and computational efficiency. Yet, its theoretical foundations remain poorly understood. In this work, we show that the functional scaling law (FSL) framework introduced in Li et al. (2025a) provides a principled lens for analyzing BSS. Specifically, we characterize the optimal BSS under a fixed data budget and show that its structure depends sharply on task difficulty. For easy tasks, optimal schedules keep increasing batch size throughout. In contrast, for hard tasks, the optimal schedule maintains small batch sizes for most of training and switches to large batches only in a late stage. To explain the emergence of late switching, we uncover a dynamical mechanism -- the fast catch-up effect -- which also manifests in large language model (LLM) pretraining. After switching from small to large batches, the loss rapidly aligns with the constant large-batch trajectory. Using FSL, we show that this effect stems from rapid forgetting of accumulated gradient noise, with the catch-up speed determined by task difficulty. Crucially, this effect implies that large batches can be safely deferred to late training without sacrificing performance, while substantially reducing data consumption. Finally, extensive LLM pretraining experiments -- covering both Dense and MoE architectures with up to 1.1B parameters and 1T tokens -- validate our theoretical predictions. Across all settings, late-switch schedules consistently outperform constant-batch and early-switch baselines.