Distributed LLM Pretraining During Renewable Curtailment Windows: A Feasibility Study
作者: Philipp Wiesner, Soeren Becker, Brett Cornick, Dominik Scheinert, Alexander Acker, Odej Kao
分类: cs.DC, cs.AI
发布日期: 2026-02-28
💡 一句话要点
提出基于可再生能源消纳窗口的分布式LLM预训练方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 分布式训练 联邦学习 可再生能源 碳排放 能源效率 绿色计算
📋 核心要点
- 大型语言模型训练耗能巨大,而可再生能源的弃用造成浪费,如何利用弃用电力进行LLM训练是关键问题。
- 论文提出一种系统,在可再生能源弃用期间,利用地理分布式GPU集群进行LLM全参数训练,并弹性切换训练模式。
- 实验结果表明,该方法在保证训练质量的前提下,显著降低了LLM训练的碳排放,最高可降至单站点基线的5%。
📝 摘要(中文)
训练大型语言模型(LLM)需要大量的计算和能源。同时,可再生能源经常产生超过电网吸收能力的电力,导致弃用,即有意减少原本会被浪费的清洁能源发电。这些时期代表着一个机会:如果训练与弃用窗口对齐,则可以使用清洁且廉价的电力对LLM进行预训练。本技术报告介绍了一种系统,该系统在区域弃用窗口期间跨地理分布式GPU集群执行全参数LLM训练,并在站点可用或不可用时,在本地单站点训练和联邦多站点同步之间弹性切换。我们的原型使用Flower联邦学习框架在三个集群上训练了一个5.61亿参数的transformer模型,弃用周期来自真实世界的边际碳强度轨迹。初步结果表明,感知弃用的调度在保持训练质量的同时,将运营排放量降低到单站点基线的5-12%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)训练过程中高能耗和碳排放的问题。现有方法通常依赖于持续供电,忽略了可再生能源的间歇性特点以及由此产生的弃用现象。这导致LLM训练的能源成本高昂,且不利于环境保护。
核心思路:论文的核心思路是利用可再生能源的弃用窗口期进行LLM的分布式预训练。通过将训练任务与可再生能源的供应情况相匹配,可以有效地利用清洁能源,降低训练成本和碳排放。这种方法的核心在于弹性地调整训练策略,以适应不同站点的可用性和能源供应情况。
技术框架:该系统采用了一种混合的训练框架,结合了本地单站点训练和联邦多站点同步。当某个站点的可再生能源供应充足时,该站点进行本地训练。当多个站点的可再生能源供应都充足时,系统会切换到联邦学习模式,利用Flower框架进行多站点同步,从而加速训练过程。系统能够根据实际的能源供应情况,弹性地调整训练策略。
关键创新:该论文的关键创新在于提出了一个能够感知可再生能源弃用窗口的分布式LLM训练系统。该系统能够根据实际的能源供应情况,动态地调整训练策略,从而最大限度地利用清洁能源,降低碳排放。这种方法与传统的集中式训练方法相比,具有更高的能源效率和环境友好性。
关键设计:该系统使用Flower联邦学习框架进行多站点同步。训练模型为一个5.61亿参数的transformer模型。弃用周期的数据来自真实世界的边际碳强度轨迹。系统通过调整本地训练的批大小和学习率等参数,来优化训练性能。具体参数设置细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过感知弃用的调度,该系统在保持训练质量的同时,将运营排放量降低到单站点基线的5-12%。这意味着该方法能够显著降低LLM训练的碳足迹,并为实现可持续的AI发展做出贡献。具体的性能指标和模型精度数据未知。
🎯 应用场景
该研究成果可应用于对能源消耗敏感的LLM训练场景,尤其是在可再生能源丰富的地区。通过与电网调度系统结合,可以实现LLM训练的绿色化,降低碳排放,并促进可再生能源的消纳。此外,该方法还可以推广到其他计算密集型任务,例如科学计算和数据分析。
📄 摘要(原文)
Training large language models (LLMs) requires substantial compute and energy. At the same time, renewable energy sources regularly produce more electricity than the grid can absorb, leading to curtailment, the deliberate reduction of clean generation that would otherwise go to waste. These periods represent an opportunity: if training is aligned with curtailment windows, LLMs can be pretrained using electricity that is both clean and cheap. This technical report presents a system that performs full-parameter LLM training across geo-distributed GPU clusters during regional curtailment windows, elastically switching between local single-site training and federated multi-site synchronization as sites become available or unavailable. Our prototype trains a 561M-parameter transformer model across three clusters using the Flower federated learning framework, with curtailment periods derived from real-world marginal carbon intensity traces. Preliminary results show that curtailment-aware scheduling preserves training quality while reducing operational emissions to 5-12% of single-site baselines.