Scalable Cross-Facility Federated Learning for Scientific Foundation Models on Multiple Supercomputers

📄 arXiv: 2603.19544v1 📥 PDF

作者: Yijiang Li, Zilinghan Li, Kyle Chard, Ian Foster, Todd Munson, Ravi Madduri, Kibaek Kim

分类: cs.LG

发布日期: 2026-03-20


💡 一句话要点

提出跨多超算中心联邦学习框架,用于训练科学基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 高性能计算 科学计算 跨设施学习 异构环境 模型训练 Globus Compute APPFL

📋 核心要点

  1. 科学应用中,由于数据隐私和数据量限制,集中式训练大型模型面临挑战。
  2. 论文提出跨多超算中心的联邦学习框架,利用APPFL和Globus实现异构环境下的协同训练。
  3. 实验表明该框架在多个超算中心可行,并强调了调度器感知的算法设计的重要性。

📝 摘要(中文)

科学应用领域的人工智能越来越多地需要在无法集中化的数据上训练大型模型,这可能是由于隐私限制、数据主权或数据量过大。联邦学习(FL)通过在不集中原始数据的情况下实现协作训练来解决这个问题,但科学应用对模型规模的需求需要大量计算资源,通常由高性能计算(HPC)设施提供。在HPC设施之间部署FL实验带来了超越云或企业环境的挑战。本文提出了一个全面的跨设施FL框架,用于异构HPC环境,该框架构建于高级隐私保护联邦学习(APPFL)框架之上,并结合了Globus Compute和Transfer编排。本文在美国能源部(DOE)的四个领先的超级计算机上评估了该框架,证明了跨HPC设施的FL实验在实践中是可行的,描述了影响训练性能的关键异构性来源,并表明在实际的HPC调度条件下,算法选择非常重要。通过在一个化学指令数据集上微调一个大型语言模型来验证了科学适用性,并将调度器感知的算法设计确定为未来部署的关键开放挑战。

🔬 方法详解

问题定义:现有科学应用需要训练大型模型,但数据往往分散在不同的高性能计算中心,且由于隐私、数据主权等原因无法集中。传统的联邦学习方法难以直接应用于这种跨设施、异构的HPC环境,面临着通信开销大、计算资源差异显著、调度策略复杂等问题。现有方法没有充分考虑HPC环境的特殊性,例如作业调度、资源竞争等,导致训练效率低下。

核心思路:论文的核心思路是构建一个能够适应异构HPC环境的联邦学习框架,充分利用各个超算中心的计算资源,同时解决数据隐私问题。通过结合APPFL框架和Globus Compute/Transfer,实现高效的数据传输和模型聚合,并针对HPC环境的调度特点,优化联邦学习算法。

技术框架:该框架主要包含以下几个模块:1) 客户端节点:部署在各个超算中心,负责本地数据的训练和模型更新;2) 服务器节点:负责模型聚合和全局模型更新;3) Globus Compute/Transfer:负责客户端和服务器之间的数据传输和任务调度;4) APPFL框架:提供联邦学习算法的实现,包括模型聚合、差分隐私等。整体流程是:客户端节点在本地数据上进行训练,将模型更新发送到服务器节点,服务器节点聚合来自各个客户端的模型更新,更新全局模型,并将更新后的全局模型发送回客户端节点。这个过程迭代进行,直到模型收敛。

关键创新:该论文的关键创新在于:1) 提出了一个适用于跨多超算中心的联邦学习框架,解决了异构HPC环境下的联邦学习问题;2) 结合了APPFL框架和Globus Compute/Transfer,实现了高效的数据传输和任务调度;3) 强调了调度器感知的算法设计的重要性,为未来的研究方向提供了指导。

关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节,但强调了调度器感知的算法设计。这意味着需要根据各个超算中心的调度策略,动态调整联邦学习算法的参数,例如学习率、聚合频率等,以最大化训练效率。此外,还需要考虑数据传输的效率,选择合适的压缩算法和传输协议,以减少通信开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在美国能源部的四个领先的超级计算机上进行了实验,证明了跨HPC设施的FL实验在实践中是可行的。实验结果表明,在实际的HPC调度条件下,算法选择非常重要,不同的算法在不同的调度策略下表现出不同的性能。通过在一个化学指令数据集上微调一个大型语言模型,验证了该框架的科学适用性。

🎯 应用场景

该研究成果可应用于多个科学领域,例如化学、材料科学、生物学等。通过联邦学习,可以利用分散在不同研究机构的数据,训练更大规模、更精确的科学模型,加速科学发现。例如,可以利用不同实验室的化学反应数据,训练一个能够预测反应结果的模型,从而加速新材料的研发。此外,该框架还可以应用于医疗健康领域,利用不同医院的患者数据,训练疾病诊断模型,提高诊断准确率。

📄 摘要(原文)

Artificial Intelligence for scientific applications increasingly requires training large models on data that cannot be centralized due to privacy constraints, data sovereignty, or the sheer volume of data generated. Federated learning (FL) addresses this by enabling collaborative training without centralizing raw data, but scientific applications demand model scales that requires extensive computing resources, typically offered at High Performance Computing (HPC) facilities. Deploying FL experiments across HPC facilities introduces challenges beyond cloud or enterprise settings. We present a comprehensive cross-facility FL framework for heterogeneous HPC environments, built on Advanced Privacy-Preserving Federated Learning (APPFL) framework with Globus Compute and Transfer orchestration, and evaluate it across four U.S. Department of Energy (DOE) leadership-class supercomputers. We demonstrate that FL experiments across HPC facilities are practically achievable, characterize key sources of heterogeneity impacting the training performance, and show that algorithmic choices matter significantly under realistic HPC scheduling conditions. We validate the scientific applicability by fine-tuning a large language model on a chemistry instruction dataset, and identify scheduler-aware algorithm design as a critical open challenge for future deployments.