FedEx-LoRA: Exact Aggregation for Federated and Efficient Fine-Tuning of Foundation Models
作者: Raghav Singhal, Kaustubh Ponkshe, Praneeth Vepakomma
分类: cs.DC, cs.CL, cs.CV
发布日期: 2024-10-12 (更新: 2025-06-30)
备注: ACL 2025 - Oral. Raghav Singhal and Kaustubh Ponkshe contributed equally to this work
🔗 代码/项目: GITHUB
💡 一句话要点
FedEx-LoRA:通过精确聚合实现联邦学习中高效的基础模型微调
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 低秩适应 LoRA 精确聚合 基础模型微调
📋 核心要点
- 现有联邦学习中LoRA微调方法依赖联邦平均,导致模型更新不精确,影响性能。
- FedEx-LoRA通过引入残差误差项,在预训练权重矩阵中实现精确更新,同时保持LoRA的效率。
- 实验表明,FedEx-LoRA在多种任务和模型上均优于现有方法,验证了精确聚合的必要性。
📝 摘要(中文)
低秩适应(LoRA)是一种流行的基础模型高效微调技术。然而,在数据分布于多个客户端的联邦学习环境中应用LoRA面临独特的挑战。现有方法依赖于LoRA适配器的传统联邦平均,导致不精确的更新。为了解决这个问题,我们提出了联邦精确LoRA,即FedEx-LoRA,它向预训练的冻结权重矩阵添加一个残差误差项。我们的方法以最小的计算和通信开销实现精确更新,保持LoRA的效率。我们在算术推理、常识推理、自然语言理解和自然语言生成任务的各种模型上评估了该方法,表明在多种设置下,相对于最先进的方法,性能始终有所提高。通过广泛的分析,我们量化了更新与理想解决方案的偏差是显著的,突出了精确聚合的必要性。我们方法的简单性、效率和广泛适用性使其成为准确有效的联邦基础模型微调的有希望的解决方案。我们的代码已在https://github.com/RaghavSinghal10/fedex-lora上公开。
🔬 方法详解
问题定义:在联邦学习场景下,直接对LoRA适配器进行联邦平均会导致模型更新不精确。这是因为简单的平均操作无法保证全局模型与每个客户端局部更新的一致性,从而影响最终模型的性能。现有方法的痛点在于无法在保证效率的同时实现精确的联邦学习模型更新。
核心思路:FedEx-LoRA的核心思路是通过在预训练的冻结权重矩阵中引入一个残差误差项,从而实现精确的LoRA适配器聚合。该残差项能够补偿由于联邦平均带来的误差,使得全局模型能够更准确地反映每个客户端的局部更新。这样,即使使用联邦平均,也能获得与集中式训练相近的性能。
技术框架:FedEx-LoRA的整体框架与标准的联邦学习流程类似,主要包括以下几个阶段:1)客户端本地训练:每个客户端使用本地数据对LoRA适配器进行训练。2)参数上传:客户端将LoRA适配器的参数以及残差误差项上传到服务器。3)服务器聚合:服务器对接收到的LoRA适配器参数进行联邦平均,并更新全局模型。4)模型分发:服务器将更新后的全局模型分发给客户端。
关键创新:FedEx-LoRA最重要的技术创新点在于引入了残差误差项,从而实现了精确的LoRA适配器聚合。与现有方法的本质区别在于,FedEx-LoRA不再仅仅依赖于联邦平均,而是通过残差项来补偿平均带来的误差,从而保证全局模型的准确性。
关键设计:FedEx-LoRA的关键设计在于残差误差项的计算方式。具体来说,残差误差项是通过最小化全局模型与每个客户端局部更新之间的差异来计算的。论文中没有明确给出具体的损失函数形式,但可以推断其目标是使全局模型尽可能接近每个客户端的局部模型。此外,LoRA的秩(rank)的选择也会影响模型的性能,需要根据具体的任务进行调整。具体的参数设置和网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FedEx-LoRA在算术推理、常识推理、自然语言理解和自然语言生成等任务上均优于现有方法。具体来说,FedEx-LoRA在多个数据集上取得了显著的性能提升,证明了精确聚合的有效性。论文通过量化分析表明,现有方法与理想解决方案的偏差显著,进一步突出了FedEx-LoRA的优势。
🎯 应用场景
FedEx-LoRA适用于各种需要联邦学习和高效微调基础模型的场景,例如医疗健康、金融风控、智能客服等。在这些场景中,数据通常分布在不同的机构或设备上,无法集中收集。FedEx-LoRA能够利用这些分散的数据进行模型训练,同时保护用户隐私。该方法有望加速基础模型在各个领域的应用,并提升模型的性能和泛化能力。
📄 摘要(原文)
Low-Rank Adaptation (LoRA) is a popular technique for efficient fine-tuning of foundation models. However, applying LoRA in federated learning environments, where data is distributed across multiple clients, presents unique challenges. Existing methods rely on traditional federated averaging of LoRA adapters, resulting in inexact updates. To address this, we propose Federated Exact LoRA, or FedEx-LoRA, which adds a residual error term to the pretrained frozen weight matrix. Our approach achieves exact updates with minimal computational and communication overhead, preserving LoRA's efficiency. We evaluate the method on various models across arithmetic reasoning, commonsense reasoning, natural language understanding and natural language generation tasks, showing consistent performance gains over state-of-the-art methods across multiple settings. Through extensive analysis, we quantify that the deviations in updates from the ideal solution are significant, highlighting the need for exact aggregation. Our method's simplicity, efficiency, and broad applicability position it as a promising solution for accurate and effective federated fine-tuning of foundation models. Our code is publicly available at https://github.com/RaghavSinghal10/fedex-lora.