FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model

📄 arXiv: 2406.17706v1 📥 PDF

作者: Feijie Wu, Zitao Li, Yaliang Li, Bolin Ding, Jing Gao

分类: cs.LG, cs.CL, cs.DC

发布日期: 2024-06-25

备注: KDD 2024


💡 一句话要点

FedBiOT:联邦学习中无需完整模型的LLM局部微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大型语言模型 模型压缩 知识蒸馏 适配器微调 双层优化 数据隐私

📋 核心要点

  1. 联邦学习中微调大型语言模型面临计算和通信资源有限的挑战,现有方法难以有效微调。
  2. FedBiOT通过服务器生成压缩LLM并对齐性能,客户端仅微调轻量级适配器,降低资源消耗。
  3. 实验表明,FedBiOT在LLaMA-2上表现出色,显著降低资源消耗,同时保持了可比的性能水平。

📝 摘要(中文)

大型语言模型(LLM)在经过适当数据微调后,在许多特定领域任务中表现出惊人的性能。然而,许多特定领域的数据私有地分布在多个所有者之间。因此,如何在联邦学习(FL)中执行LLM微调引起了人们的兴趣。然而,面对有限的计算和通信能力,FL客户端难以有效地微调LLM。为此,我们引入了FedBiOT,这是一种资源高效的LLM微调方法,用于FL。具体来说,我们的方法涉及服务器生成压缩的LLM,并使其性能与完整模型对齐。随后,客户端微调压缩模型中轻量级但重要的部分,称为适配器。请注意,由于服务器无法访问客户端拥有的私有数据,因此服务器用于对齐的数据与客户端用于微调的数据具有不同的分布。我们将该问题表述为一个双层优化问题,以最大限度地减少数据差异的负面影响,并推导出服务器和客户端的更新规则。我们对LLaMA-2进行了广泛的实验,经验表明,当适配器重新集成到全局LLM中时,具有出色的性能。结果还表明,与现有基准相比,所提出的FedBiOT显著降低了资源消耗,同时实现了相当的性能水平。

🔬 方法详解

问题定义:论文旨在解决联邦学习场景下,客户端计算和通信资源有限,难以直接微调大型语言模型的问题。现有方法要么需要传输整个模型,要么微调效果不佳,无法充分利用本地私有数据。

核心思路:论文的核心思路是利用服务器生成一个压缩的LLM,并使其性能与完整模型对齐。然后,客户端只需要微调这个压缩模型中的一个轻量级适配器。这样既降低了计算和通信成本,又能够利用本地数据进行个性化微调。同时,论文还考虑了服务器和客户端数据分布差异带来的影响。

技术框架:FedBiOT的整体框架包含以下几个主要阶段:1) 服务器使用公共数据训练并压缩LLM;2) 服务器将压缩后的LLM发送给客户端;3) 客户端使用本地私有数据微调LLM中的适配器;4) 客户端将微调后的适配器参数上传到服务器;5) 服务器聚合客户端上传的适配器参数,更新全局模型。

关键创新:该方法最重要的创新点在于提出了一个双层优化框架,用于解决服务器和客户端数据分布差异带来的问题。上层优化目标是最小化服务器端压缩模型的性能损失,下层优化目标是最大化客户端本地数据的微调效果。通过这种双层优化,可以有效地缓解数据分布差异带来的负面影响。

关键设计:论文的关键设计包括:1) 使用知识蒸馏技术压缩LLM,保留模型的核心能力;2) 引入适配器模块,只微调少量参数,降低计算成本;3) 设计双层优化目标函数,平衡服务器端全局性能和客户端本地性能;4) 使用动量梯度下降等优化算法,加速模型收敛。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FedBiOT在LLaMA-2模型上取得了显著的性能提升,同时大幅降低了资源消耗。与现有基准方法相比,FedBiOT在保持可比性能水平的同时,显著减少了客户端的计算和通信负担,使得在资源受限的联邦学习环境中微调大型语言模型成为可能。

🎯 应用场景

FedBiOT可应用于医疗、金融等数据隐私敏感领域,允许多个机构在不共享原始数据的前提下,共同训练和优化大型语言模型,提升模型在特定领域的性能。该方法降低了计算和通信成本,使得资源受限的机构也能参与到联邦学习中,具有广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) show amazing performance on many domain-specific tasks after fine-tuning with some appropriate data. However, many domain-specific data are privately distributed across multiple owners. Thus, this dilemma raises the interest in how to perform LLM fine-tuning in federated learning (FL). However, confronted with limited computation and communication capacities, FL clients struggle to fine-tune an LLM effectively. To this end, we introduce FedBiOT, a resource-efficient LLM fine-tuning approach to FL. Specifically, our method involves the server generating a compressed LLM and aligning its performance with the full model. Subsequently, the clients fine-tune a lightweight yet important part of the compressed model, referred to as an adapter. Notice that as the server has no access to the private data owned by the clients, the data used for alignment by the server has a different distribution from the one used for fine-tuning by clients. We formulate the problem into a bi-level optimization problem to minimize the negative effect of data discrepancy and derive the updating rules for the server and clients. We conduct extensive experiments on LLaMA-2, empirically showing that the adapter has exceptional performance when reintegrated into the global LLM. The results also indicate that the proposed FedBiOT significantly reduces resource consumption compared to existing benchmarks, all while achieving comparable performance levels.