ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining
作者: Melis Ilayda Bal, Volkan Cevher, Michael Muehlebach
分类: cs.LG, cs.CL
发布日期: 2025-05-26
💡 一句话要点
提出ESLM:一种风险规避的选择性语言模型预训练方法,提升效率和鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型预训练 选择性学习 风险规避 分布鲁棒优化 高效训练 Value-at-Risk 双层优化 GPT-2
📋 核心要点
- 现有大语言模型预训练计算资源消耗巨大,但许多token贡献甚微,导致效率低下。
- ESLM通过在线token级别的批次选择,保留最具信息的token,从而提高训练效率和分布鲁棒性。
- 实验表明,ESLM在GPT-2预训练中显著减少了FLOPs,同时保持或提升了困惑度和下游任务性能。
📝 摘要(中文)
大规模语言模型预训练计算密集,但许多token对学习的贡献微乎其微,导致效率低下。我们提出了一种高效的选择性语言建模(ESLM)方法,这是一种风险感知的算法,通过执行在线token级别的批次选择来提高训练效率和分布鲁棒性。ESLM利用每个token的统计信息(例如,熵或损失),并应用风险价值阈值来仅保留每个批次中最具信息的token。这种以数据为中心的机制重塑了训练损失,优先考虑高风险token并消除冗余梯度计算。我们将ESLM构建为一个双层博弈:模型与一个掩码对抗者竞争,该对抗者在受约束的阈值规则下选择最坏情况的token子集。在基于损失的设置中,ESLM恢复了条件风险价值损失最小化,从而提供了与分布鲁棒优化的原则性联系。我们将我们的方法扩展到Ada-ESLM,它在训练期间自适应地调整选择置信度。在GPT-2预训练上的实验表明,与基线相比,ESLM显着减少了训练FLOPs,同时保持或提高了困惑度和下游性能。我们的方法还可以跨模型大小和预训练语料库进行扩展,并自然地与知识蒸馏集成。
🔬 方法详解
问题定义:现有的大型语言模型预训练过程计算成本高昂,但并非所有token都对模型的学习有同等贡献。许多token携带的信息量较少,导致训练效率低下,浪费计算资源。因此,如何选择性地关注更有价值的token,提高预训练效率,是本文要解决的核心问题。
核心思路:ESLM的核心思路是基于风险规避的选择性学习。它通过评估每个token的重要性(例如,基于熵或损失),并仅保留那些被认为“高风险”或信息量大的token进行训练。这种方法类似于在投资中规避风险,只关注那些可能带来最大损失(或最大收益)的资产。通过这种方式,ESLM可以减少冗余计算,提高训练效率。
技术框架:ESLM的整体框架可以看作是一个双层优化问题。第一层是语言模型本身的训练,目标是最小化损失函数。第二层是一个“掩码对抗者”,它的目标是在给定的约束条件下,选择最坏情况的token子集进行掩码。ESLM通过Value-at-Risk (VaR)阈值来控制选择的token数量。Ada-ESLM进一步引入了自适应调整选择置信度的机制。
关键创新:ESLM的关键创新在于其风险感知的token选择机制。与传统的随机掩码或固定比例掩码方法不同,ESLM能够根据token的实际重要性进行选择,从而更有效地利用计算资源。此外,ESLM将选择过程建模为一个双层博弈,并将其与分布鲁棒优化联系起来,为该方法提供了理论基础。
关键设计:ESLM的关键设计包括:1) 使用token级别的统计信息(如熵或损失)来评估token的重要性;2) 应用Value-at-Risk (VaR)阈值来控制选择的token数量;3) 将选择过程建模为一个双层博弈,并将其与条件风险价值(Conditional Value-at-Risk, CVaR)损失最小化联系起来;4) 引入Ada-ESLM,自适应地调整选择置信度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ESLM在GPT-2预训练中能够显著减少训练所需的FLOPs,同时保持或提升模型的困惑度和下游任务性能。具体来说,ESLM在减少计算量的同时,能够达到与基线方法相当甚至更好的性能,证明了其高效性和有效性。此外,ESLM还展现了良好的可扩展性,能够应用于不同大小的模型和不同的预训练语料库。
🎯 应用场景
ESLM具有广泛的应用前景,可以应用于各种大规模语言模型的预训练任务中,尤其是在计算资源有限的情况下。该方法可以显著降低预训练成本,加速模型迭代,并提高模型的泛化能力。此外,ESLM还可以与其他优化技术(如知识蒸馏)相结合,进一步提升模型性能。该研究对于推动自然语言处理领域的发展具有重要意义。
📄 摘要(原文)
Large language model pretraining is compute-intensive, yet many tokens contribute marginally to learning, resulting in inefficiency. We introduce Efficient Selective Language Modeling (ESLM), a risk-aware algorithm that improves training efficiency and distributional robustness by performing online token-level batch selection. ESLM leverages per-token statistics (e.g., entropy or loss) and applies value-at-risk thresholding to retain only the most informative tokens per batch. This data-centric mechanism reshapes the training loss, prioritizing high-risk tokens and eliminating redundant gradient computation. We frame ESLM as a bilevel game: the model competes with a masking adversary that selects worst-case token subsets under a constrained thresholding rule. In the loss-based setting, ESLM recovers conditional value-at-risk loss minimization, providing a principled connection to distributionally robust optimization. We extend our approach to Ada-ESLM, which adaptively tunes the selection confidence during training. Experiments on GPT-2 pretraining show that ESLM significantly reduces training FLOPs while maintaining or improving both perplexity and downstream performance compared to baselines. Our approach also scales across model sizes, pretraining corpora, and integrates naturally with knowledge distillation.