SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

📄 arXiv: 2412.08347v1 📥 PDF

作者: Sultan Alrashed

分类: cs.CL, cs.AI

发布日期: 2024-12-11

备注: 10 pages, 4 figures, and 13 tables. For the SmolTulu-1.7b-instruct model, see: https://huggingface.co/SultanR/SmolTulu-1.7b-Instruct


💡 一句话要点

SmolTulu:通过调整学习率与批量大小比例提升小型语言模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 指令微调 学习率 批量大小 推理能力 模型优化 高效模型对齐

📋 核心要点

  1. 现有小型语言模型在推理能力上与大型模型存在差距,优化方法有待探索。
  2. 通过调整学习率与批量大小的比例,优化模型训练动态,提升推理能力。
  3. SmolTulu在指令遵循和数学推理任务上取得了显著提升,缩小了与大型模型的差距。

📝 摘要(中文)

本文介绍了SmolTulu-1.7b-Instruct,在报告中称为SmolTulu-DPO-1130,这是一个指令微调的语言模型,它将AllenAI的Tulu 3后训练流程应用于Huggingface的SmolLM2-1.7B基础模型。通过使用一个1.35亿参数模型的全面实证分析,我们证明了学习率与批量大小之间的关系以任务依赖的方式显著影响模型性能。我们的研究结果揭示了一个明确的划分:ARC和GSM8K等推理任务受益于较高的学习率与批量大小比例,而HellaSwag和IFEval等模式识别任务在较低的比例下表现出最佳性能。这些见解指导了SmolTulu的开发,该模型在指令遵循方面实现了亚20亿参数模型中的最先进性能,在IFEval上获得67.7%的分数(提升11%),在数学推理方面在GSM8K上获得51.6%的分数(提升3.4%),另一个版本在ARC上获得57.1%的分数(提升5.4%)。我们发布了我们的模型、训练配方和消融研究,以促进对高效模型对齐的进一步研究,表明仔细调整优化动态可以帮助缩小小型和大型语言模型之间的能力差距。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(SLM)在推理任务上的性能瓶颈。现有方法可能无法充分利用SLM的潜力,导致其在复杂推理任务中表现不佳。论文关注的是如何通过优化训练过程来提升SLM的推理能力,使其在资源受限的情况下也能达到更好的效果。

核心思路:论文的核心思路是探索学习率与批量大小之间的关系对SLM性能的影响。作者发现,对于不同类型的任务,最佳的学习率与批量大小比例是不同的。具体来说,推理任务需要更高的比例,而模式识别任务则需要更低的比例。通过针对不同任务调整这一比例,可以优化模型的训练动态,从而提升其性能。

技术框架:论文的技术框架主要包括以下几个步骤:首先,选择SmolLM2-1.7B作为基础模型。然后,使用AllenAI的Tulu 3后训练流程进行指令微调。接着,进行大量的实验分析,探索学习率与批量大小比例对模型性能的影响。最后,基于实验结果,开发了SmolTulu模型,并在多个基准测试上进行了评估。

关键创新:论文最重要的技术创新点在于发现了学习率与批量大小比例对不同类型任务的影响。以往的研究可能忽略了这一因素,或者没有对其进行系统的分析。论文通过大量的实验证明了这一比例的重要性,并提出了针对不同任务调整该比例的策略。

关键设计:论文的关键设计包括:1) 使用SmolLM2-1.7B作为基础模型,因为它具有较小的参数量,适合进行实验分析。2) 采用AllenAI的Tulu 3后训练流程,该流程已经被证明是有效的指令微调方法。3) 设计了一系列实验,系统地评估了不同学习率与批量大小比例对模型性能的影响。4) 基于实验结果,针对推理任务和模式识别任务,分别选择了不同的学习率与批量大小比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SmolTulu在多个基准测试上取得了显著的性能提升。在IFEval上,SmolTulu的得分达到67.7%,相比基线提升了11%。在GSM8K上,SmolTulu的得分达到51.6%,提升了3.4%。在ARC上,另一个版本的SmolTulu的得分达到57.1%,提升了5.4%。这些结果表明,通过调整学习率与批量大小比例,可以显著提升小型语言模型的推理能力。

🎯 应用场景

该研究成果可应用于资源受限的场景,例如边缘计算设备或移动设备,在这些场景下,部署大型语言模型是不切实际的。通过优化小型语言模型的训练方法,可以在这些设备上实现高效的推理能力,从而支持各种应用,如智能助手、自动问答和机器翻译等。此外,该研究还可以促进对高效模型对齐的进一步研究。

📄 摘要(原文)

We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval ($Δ$11%), and mathematical reasoning with 51.6% on GSM8K ($Δ$3.4%), with an alternate version achieving scoring 57.1% on ARC ($\Delta5.4%$). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.