The Future of Large Language Model Pre-training is Federated

📄 arXiv: 2405.10853v3 📥 PDF

作者: Lorenzo Sani, Alex Iacob, Zeyu Cao, Bill Marino, Yan Gao, Tomas Paulik, Wanru Zhao, William F. Shen, Preslav Aleksandrov, Xinchi Qiu, Nicholas D. Lane

分类: cs.LG, cs.AI, cs.DC

发布日期: 2024-05-17 (更新: 2024-10-14)

备注: 24 pages, 15 figures, pre-print


💡 一句话要点

提出Photon联邦学习系统,用于大规模协作预训练十亿级参数大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大型语言模型 预训练 分布式训练 隐私保护

📋 核心要点

  1. 现有LLM训练依赖中心化数据,限制了数据和计算资源的利用,阻碍了模型性能的进一步提升。
  2. 提出Photon系统,利用联邦学习方法,协调多方私有数据和计算资源,实现大规模LLM的协作预训练。
  3. 实验表明,该方法在有限资源下可训练数十亿参数的LLM,且对数据和硬件异构性具有鲁棒性。

📝 摘要(中文)

本文提出了一种稳健、灵活、可复现的联邦学习(FL)方法,旨在促进跨机构的大规模协作,以训练大型语言模型(LLM)。该研究介绍了一个名为Photon的可扩展部署系统,用于探索和开发LLM预训练的新范式。Photon使拥有私有数据源和计算资源的组织能够协作预训练具有数十亿参数的LLM。这种范式能够调动更多的计算和数据资源,同时达到甚至超过中心化训练的性能。研究表明,联邦训练的有效性随模型规模的扩大而增加,并提出了一种使用有限资源训练十亿级联邦LLM的方法。目前,已使用Photon训练了参数规模达到70亿的LLM模型,并预计在不久的将来完成更大模型的训练。此外,LLM训练对联邦学习中常见的统计和硬件异构性具有很强的鲁棒性。收敛对部分参与具有鲁棒性,为计算高效的协作训练开辟了道路。Photon将帮助数据丰富的参与者成为LLM预训练的主角,而不仅仅是计算资源丰富的参与者。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)预训练主要依赖于中心化的数据中心,这限制了能够利用的数据量和计算资源。许多机构拥有大量私有数据,但由于隐私和安全问题,无法直接用于中心化训练。因此,如何利用这些分散的数据和计算资源,同时保护数据隐私,是LLM发展面临的一个重要问题。

核心思路:本文的核心思路是利用联邦学习(FL)技术,允许多个参与者(例如,不同的机构)在本地使用其私有数据训练模型,然后将模型更新聚合到全局模型中,而无需共享原始数据。这样既可以利用更多的数据和计算资源,又可以保护数据的隐私。

技术框架:Photon系统的整体架构包括以下几个主要模块:1) 客户端选择:选择参与当前训练轮次的客户端。2) 本地训练:每个客户端使用本地数据训练模型。3) 模型聚合:将客户端的模型更新聚合到全局模型中。4) 模型分发:将更新后的全局模型分发给客户端进行下一轮训练。该流程循环进行,直到模型收敛。

关键创新:该论文的关键创新在于提出了一个可扩展的联邦学习系统Photon,专门用于大规模LLM的预训练。Photon能够处理LLM训练中遇到的各种挑战,例如数据异构性、硬件异构性和通信瓶颈。此外,该研究还表明,LLM训练对联邦学习中常见的统计和硬件异构性具有很强的鲁棒性。

关键设计:Photon的关键设计包括:1) 可扩展的架构:Photon采用模块化设计,可以轻松扩展到支持更多的客户端和更大的模型。2) 高效的通信协议:Photon使用高效的通信协议来减少通信开销。3) 鲁棒的聚合算法:Photon使用鲁棒的聚合算法来处理数据异构性。4) 部分参与策略:允许客户端部分参与训练,提高计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Photon系统能够有效地训练数十亿参数的LLM。具体来说,该研究使用Photon训练了一个70亿参数的LLM,并表明该模型在各种任务上都取得了良好的性能。此外,实验还表明,LLM训练对联邦学习中常见的统计和硬件异构性具有很强的鲁棒性,并且收敛对部分参与具有鲁棒性,这为计算高效的协作训练开辟了道路。

🎯 应用场景

该研究成果可应用于多个领域,例如医疗、金融和教育。通过联邦学习,不同机构可以在保护用户隐私的前提下,共同训练更强大的LLM,从而为用户提供更优质的服务。例如,在医疗领域,不同医院可以联合训练LLM来辅助诊断和治疗,而无需共享患者的敏感数据。在金融领域,不同银行可以联合训练LLM来检测欺诈行为,而无需共享客户的交易记录。

📄 摘要(原文)

Generative pre-trained large language models (LLMs) have demonstrated impressive performance over a wide range of tasks, thanks to the unprecedented amount of data they have been trained on. As established scaling laws indicate, LLMs' future performance improvement depends on the amount of computing and data sources they can leverage for pre-training. Federated learning (FL) has the potential to unleash the majority of the planet's data and computational resources, which are underutilized by the data-center-focused training methodology of current LLM practice. Our work presents a robust, flexible, reproducible FL approach that enables large-scale collaboration across institutions to train LLMs. We propose a scalable deployment system called Photon to enable the investigation and development of this new training paradigm for LLM pre-training. We show that Photon can be used by organizations interested in collaborating with their private data sources and computational resources for pre-training LLMs with billions of parameters. This paradigm would mobilize more computational and data resources while matching or potentially exceeding centralized performance. We further show the effectiveness of the federated training scales with model size and present our approach for training billion-scale federated LLMs using limited resources. Thus far, we have used Photon to train LLM models to the size of 7B parameters and anticipate larger models being completed in the near future. Finally, we show that LLM training is highly resilient to the classical challenges of federated statistical and hardware heterogeneity. Furthermore, we show that convergence is robust to partial participation, opening the avenue for compute-efficient collaborative training. Photon will help data-rich actors to become the protagonists of LLMs pre-training instead of leaving the stage to compute-rich actors alone.