Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review

📄 arXiv: 2409.06131v2 📥 PDF

作者: Neha Prakriya, Jui-Nan Yen, Cho-Jui Hsieh, Jason Cong

分类: cs.CL, cs.AI

发布日期: 2024-09-10 (更新: 2025-01-28)


💡 一句话要点

提出LFR教学法,加速大语言模型预训练,显著降低训练成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 动态训练 数据采样 LFR教学法

📋 核心要点

  1. 传统LLM预训练随机抽样数据,导致训练成本高、模型质量低、数据遗忘严重。
  2. LFR范式动态调整训练数据,优先访问模型易遗忘的难点数据,提升学习效率。
  3. 实验表明,LFR使用更少的数据,在下游任务中达到甚至超越现有模型性能。

📝 摘要(中文)

传统的大语言模型(LLM)预训练依赖于自回归语言建模,并从网络规模的数据集中随机抽样数据。受到人类学习技术(如间隔重复)的启发,我们假设随机抽样会导致高昂的训练成本、较低质量的模型以及显著的数据遗忘。为了解决这些低效率问题,我们提出了Learn-Focus-Review(LFR)范式——一种动态训练方法,可以适应模型的学习进度。LFR跟踪模型在数据块(token序列)上的学习表现,并优先重新访问数据集中更具挑战性、更容易被遗忘的区域,从而实现更好的保留和更有效的学习。使用LFR范式,我们分别在SlimPajama和OpenWebText数据集上预训练了Llama和GPT模型。这些模型在各个领域的下游任务中进行了评估,包括问答、问题解决、常识推理、语言建模和翻译。与在完整数据集上训练的基线模型相比,LFR始终如一地实现了更低的困惑度和更高的准确率,同时仅使用了5%--19%的训练token。此外,LFR仅使用3.2%的训练token,就达到了参数量高达2倍的行业标准Pythia模型的性能,证明了其有效性和效率。

🔬 方法详解

问题定义:论文旨在解决大语言模型预训练过程中,由于随机数据采样导致的训练效率低下问题。现有方法平等对待所有数据,忽略了模型对不同数据的学习程度差异,导致大量计算资源浪费在模型已经掌握的数据上,同时容易遗忘之前学习过的知识点。

核心思路:论文的核心思路是模拟人类学习中的“温故而知新”策略,即Learn-Focus-Review (LFR) 范式。通过动态调整训练数据的优先级,让模型更多地学习那些它尚未掌握或容易遗忘的知识,从而提高训练效率和模型性能。

技术框架:LFR范式包含以下几个主要阶段: 1. 学习 (Learn):模型正常地从数据集中学习。 2. 聚焦 (Focus):在学习过程中,LFR跟踪模型在不同数据块上的学习表现(例如,困惑度)。 3. 回顾 (Review):根据模型在不同数据块上的学习表现,确定需要重新访问的数据块,并提高这些数据块在后续训练中的采样概率。模型会更频繁地回顾那些它表现不佳或容易遗忘的数据。

关键创新:LFR范式的关键创新在于其动态调整数据采样概率的能力。与传统的静态数据采样方法不同,LFR能够根据模型的学习进度,自适应地调整训练数据的分布,从而更有效地利用计算资源,并提高模型的学习效率和泛化能力。

关键设计:LFR范式的关键设计包括: 1. 学习表现的度量:使用困惑度(Perplexity)作为衡量模型在每个数据块上学习表现的指标。困惑度越高,表示模型对该数据块的理解程度越低。 2. 数据块的划分:将训练数据划分为多个数据块(例如,固定长度的token序列),以便跟踪模型在不同数据块上的学习表现。 3. 采样概率的调整:根据模型在每个数据块上的困惑度,动态调整该数据块在后续训练中的采样概率。困惑度越高,采样概率越高。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LFR在Llama和GPT模型上均取得了显著的性能提升。例如,使用LFR预训练的模型仅使用5%-19%的训练token,就能够达到甚至超过在完整数据集上训练的基线模型的性能。更令人印象深刻的是,LFR仅使用3.2%的训练token,就能够匹配参数量高达2倍的行业标准Pythia模型的性能。

🎯 应用场景

LFR教学法可广泛应用于各种大语言模型的预训练,尤其是在计算资源有限的情况下。该方法能够显著降低预训练成本,提高模型性能,加速LLM在自然语言处理、机器翻译、文本生成等领域的应用。未来,LFR还可扩展到其他机器学习任务,例如图像识别和语音识别。

📄 摘要(原文)

Traditional Large Language Model (LLM) pretraining relies on autoregressive language modeling with randomly sampled data from web-scale datasets. Inspired by human learning techniques like spaced repetition, we hypothesize that random sampling leads to high training costs, lower-quality models, and significant data forgetting. To address these inefficiencies, we propose the Learn-Focus-Review (LFR) paradigm -- a dynamic training approach that adapts to the model's learning progress. LFR tracks the model's learning performance across data blocks (sequences of tokens) and prioritizes revisiting challenging regions of the dataset that are more prone to being forgotten, enabling better retention and more efficient learning. Using the LFR paradigm, we pretrained Llama and GPT models on the SlimPajama and OpenWebText datasets, respectively. These models were evaluated on downstream tasks across various domains, including question answering, problem-solving, commonsense reasoning, language modeling, and translation. Compared to baseline models trained on the full datasets, LFR consistently achieved lower perplexity and higher accuracy, while using only 5%--19% of the training tokens. Furthermore, LFR matched the performance of industry-standard Pythia models with up to 2$\times$ the parameter count, using just 3.2% of the training tokens, demonstrating its effectiveness and efficiency.