A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models

作者: Zhihao Wang, Shiyu Liu, Jianheng Huang, Zheng Wang, Yixuan Liao, Xiaoxin Chen, Junfeng Yao, Jinsong Su

分类: cs.CL

发布日期: 2024-10-05

备注: EMNLP 2024 (main,long paper)

💡 一句话要点

提出学习率路径切换训练范式，高效更新大语言模型版本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 版本更新 持续预训练 学习率调度 训练范式

📋 核心要点

大型语言模型版本更新面临性能与成本的权衡，从头预训练性能好但成本高，持续预训练成本低但性能逐渐落后。
论文提出学习率路径切换训练范式，通过主路径预训练和分支路径更新，兼顾性能和成本。
实验表明，该范式在训练四个版本的LLM时，训练成本降低至从头预训练的58%，同时保持了相当的性能。

📝 摘要（中文）

由于新数据的不断涌现，版本更新已成为大型语言模型（LLM）不可或缺的需求。LLM版本更新的训练范式包括从头预训练（PTFS）和持续预训练（CPT）。初步实验表明，PTFS实现了更好的预训练性能，而CPT具有更低的训练成本。此外，它们的性能和训练成本差距随着版本更新而逐渐扩大。为了研究这种现象的根本原因，我们分析了CPT两个阶段中学习率调整的影响：准备初始化检查点和基于此检查点的持续预训练。我们发现，第一阶段的大学习率和第二阶段完整的学习率衰减过程对于LLM的版本更新至关重要。因此，我们提出了一种学习率路径切换训练范式。我们的范式包括一条主路径，我们在该路径上以最大学习率预训练LLM，以及多条分支路径，每条分支路径对应于使用新添加的训练数据对LLM的更新。大量实验证明了我们范式的有效性和泛化性。特别是，在训练四个版本的LLM时，与PTFS相比，我们的范式将总训练成本降低到58%，同时保持了相当的预训练性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）版本更新过程中，从头预训练（PTFS）成本高昂，而持续预训练（CPT）性能逐渐落后的问题。PTFS虽然能获得更好的性能，但每次更新都需要重新训练整个模型，计算资源消耗巨大。CPT虽然训练成本较低，但随着版本迭代，模型性能会逐渐下降，无法充分利用新数据带来的提升。

核心思路：论文的核心思路是设计一种学习率路径切换的训练范式，该范式结合了PTFS和CPT的优点。通过一条主路径进行初始预训练，保证模型的基础性能，然后通过多条分支路径进行快速更新，降低训练成本。关键在于合理地调整每个阶段的学习率，以实现性能和效率的平衡。

技术框架：该范式包含一条主路径和多条分支路径。主路径使用较大的学习率进行预训练，为后续更新提供良好的初始化。每条分支路径对应一个版本更新，使用新数据在主路径的checkpoint基础上进行持续预训练。在分支路径中，首先使用较大的学习率进行快速适应，然后进行完整的学习率衰减，以充分利用新数据。

关键创新：该范式的关键创新在于学习率路径的切换策略。通过主路径保证模型的基础性能，并通过分支路径进行高效的版本更新。这种策略避免了每次都从头开始训练，同时保证了模型能够充分学习新数据，避免了CPT的性能下降问题。

关键设计：在主路径中，使用较大的学习率进行预训练，并采用标准的学习率衰减策略。在分支路径中，首先使用较大的学习率进行快速适应，然后进行完整的学习率衰减。具体的学习率数值和衰减策略需要根据具体的数据集和模型进行调整。论文中可能还涉及了其他超参数的调整，例如batch size、dropout rate等，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该学习率路径切换训练范式在训练四个版本的LLM时，与从头预训练相比，总训练成本降低到58%，同时保持了相当的预训练性能。这表明该方法能够在保证模型性能的前提下，显著降低训练成本，具有很强的实用价值。

🎯 应用场景

该研究成果可广泛应用于需要频繁版本更新的大型语言模型，例如搜索引擎、智能助手、对话系统等。通过降低版本更新的训练成本，可以更快地将最新的数据和知识融入到模型中，提升用户体验和模型性能。该方法也适用于其他需要持续学习的机器学习模型。

📄 摘要（原文）

Due to the continuous emergence of new data, version updates have become an indispensable requirement for Large Language Models (LLMs). The training paradigms for version updates of LLMs include pre-training from scratch (PTFS) and continual pre-training (CPT). Preliminary experiments demonstrate that PTFS achieves better pre-training performance, while CPT has lower training cost. Moreover, their performance and training cost gaps widen progressively with version updates. To investigate the underlying reasons for this phenomenon, we analyze the effect of learning rate adjustments during the two stages of CPT: preparing an initialization checkpoint and continual pre-training based on this checkpoint. We find that a large learning rate in the first stage and a complete learning rate decay process in the second stage are crucial for version updates of LLMs. Hence, we propose a learning rate path switching training paradigm. Our paradigm comprises one main path, where we pre-train a LLM with the maximal learning rate, and multiple branching paths, each of which corresponds to an update of the LLM with newly-added training data. Extensive experiments demonstrate the effectiveness and generalization of our paradigm. Particularly, when training four versions of LLMs, our paradigm reduces the total training cost to 58% compared to PTFS, while maintaining comparable pre-training performance.

A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理