Distributed LLM Pretraining During Renewable Curtailment Windows: A Feasibility Study

📄 arXiv: 2602.22760v1 📥 PDF

作者: Philipp Wiesner, Soeren Becker, Brett Cornick, Dominik Scheinert, Alexander Acker, Odej Kao

分类: cs.DC, cs.AI

发布日期: 2026-02-26

备注: Technical report


💡 一句话要点

提出基于可再生能源消纳窗口的分布式LLM预训练方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 分布式训练 联邦学习 可再生能源 碳排放 能源效率 绿色计算

📋 核心要点

  1. 现有LLM训练消耗大量能源,而可再生能源弃用期存在廉价清洁能源未被利用的问题。
  2. 论文提出一种基于可再生能源弃用窗口的分布式LLM预训练系统,实现能源高效利用。
  3. 实验结果表明,该系统在降低碳排放的同时,能够保持LLM的训练质量。

📝 摘要(中文)

训练大型语言模型(LLM)需要大量的计算和能源。同时,可再生能源经常产生超过电网吸收能力的电力,导致弃用,即有意的减少清洁能源的生产,否则这些能源将被浪费。这些时期代表了一个机会:如果训练与弃用窗口对齐,LLM可以使用清洁且廉价的电力进行预训练。本技术报告介绍了一个系统,该系统在区域弃用窗口期间跨地理分布的GPU集群执行全参数LLM训练,随着站点的可用或不可用,在本地单站点训练和联邦多站点同步之间弹性切换。我们的原型使用Flower联邦学习框架在三个集群上训练一个5.61亿参数的transformer模型,弃用周期来自真实世界的边际碳强度轨迹。初步结果表明,感知弃用的调度在保持训练质量的同时,将运营排放降低到单站点基线的5-12%。

🔬 方法详解

问题定义:论文旨在解决LLM训练过程中能源消耗过高的问题,尤其是在可再生能源被浪费的弃用期间。现有方法通常忽略了能源的来源和碳排放,导致训练过程对环境产生负面影响。

核心思路:论文的核心思路是将LLM的训练调度与可再生能源的弃用窗口对齐。利用弃用期间产生的廉价且清洁的能源进行训练,从而降低训练过程的碳排放,并提高能源利用效率。

技术框架:该系统采用分布式训练架构,跨多个地理位置分散的GPU集群进行LLM训练。系统使用Flower联邦学习框架,在本地单站点训练和联邦多站点同步之间弹性切换。当某个站点的可再生能源可用时,系统在该站点进行本地训练;当多个站点的可再生能源可用时,系统进行联邦同步,以整合各个站点的训练结果。

关键创新:该方法的关键创新在于将LLM训练与可再生能源的可用性相结合,实现了一种能源感知的训练调度策略。这种策略能够充分利用可再生能源,降低碳排放,并提高能源利用效率。与传统的训练方法相比,该方法更加环保和可持续。

关键设计:系统使用真实世界的边际碳强度轨迹来模拟可再生能源的弃用周期。训练过程中,系统会根据各个站点的能源可用性动态调整训练策略。具体而言,系统会根据站点的能源可用性选择本地训练或联邦同步。此外,系统还采用了弹性调度机制,以应对站点可用性的变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该系统在训练一个5.61亿参数的transformer模型时,能够将运营排放降低到单站点基线的5-12%。同时,该系统能够保持训练质量,表明该方法在降低碳排放的同时,不会对模型的性能产生负面影响。这些结果验证了该方法的可行性和有效性。

🎯 应用场景

该研究成果可应用于各种需要大规模计算的机器学习任务,尤其是在对能源消耗和碳排放有较高要求的场景下。例如,可以用于训练各种大型模型,如自然语言处理模型、计算机视觉模型等。此外,该方法还可以推广到其他可再生能源领域,如风能、太阳能等,以实现更加绿色和可持续的计算。

📄 摘要(原文)

Training large language models (LLMs) requires substantial compute and energy. At the same time, renewable energy sources regularly produce more electricity than the grid can absorb, leading to curtailment, the deliberate reduction of clean generation that would otherwise go to waste. These periods represent an opportunity: if training is aligned with curtailment windows, LLMs can be pretrained using electricity that is both clean and cheap. This technical report presents a system that performs full-parameter LLM training across geo-distributed GPU clusters during regional curtailment windows, elastically switching between local single-site training and federated multi-site synchronization as sites become available or unavailable. Our prototype trains a 561M-parameter transformer model across three clusters using the Flower federated learning framework, with curtailment periods derived from real-world marginal carbon intensity traces. Preliminary results show that curtailment-aware scheduling preserves training quality while reducing operational emissions to 5-12% of single-site baselines.