Communication-Efficient and Personalized Federated Foundation Model Fine-Tuning via Tri-Matrix Adaptation
作者: Yongle Li, Bo Liu, Sheng Huang, ZHeng ZHang, Xiaotong Yuan, Richang Hong
分类: cs.LG
发布日期: 2025-03-31 (更新: 2025-04-20)
💡 一句话要点
提出CE-LoRA,通过三矩阵适应实现通信高效的个性化联邦大模型微调
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大模型微调 低秩适应 通信效率 个性化模型 数据隐私 三矩阵分解 异构数据
📋 核心要点
- 联邦学习微调大模型面临通信成本高昂和客户端数据异构导致模型性能下降的挑战。
- CE-LoRA通过三因子分解低秩适配和个性化模型参数聚合,在降低通信成本的同时提升模型性能。
- 实验表明,CE-LoRA在降低通信开销的同时,提升了非独立同分布数据条件下的模型性能,并增强了数据隐私保护。
📝 摘要(中文)
本文提出了一种通信高效的联邦LoRA适配方法(CE-LoRA),用于解决联邦学习中微调预训练大模型时面临的通信成本高和客户端数据异构导致模型性能欠佳的问题。CE-LoRA采用三因子分解低秩适配方法,并结合个性化模型参数聚合。首先,通过引入一个小尺寸稠密矩阵,提出了一种新颖的LoRA参数分解方法,该方法可以显著降低通信成本,并实现与现有方法传输低秩参数矩阵相当的经验性能。在不违反数据隐私的前提下,服务器考虑训练数据集和模型参数空间中的客户端相似性,并学习个性化的模型聚合权重。在各种LLM和VLM微调任务上的实验表明,CE-LoRA不仅显著降低了通信开销,而且提高了在非独立同分布数据条件下的性能。此外,CE-LoRA还提高了数据隐私保护,有效缓解了基于梯度的数据重建攻击。
🔬 方法详解
问题定义:联邦学习中,直接微调预训练的大型模型会产生巨大的通信开销,尤其是在客户端数据异构的情况下,简单的模型聚合策略会导致模型性能下降。现有的低秩适应方法(如LoRA)虽然减少了参数量,但直接传输低秩矩阵仍然会带来较高的通信成本。此外,忽略客户端数据和模型之间的差异性会导致个性化效果不佳。
核心思路:CE-LoRA的核心思路是通过三因子分解进一步压缩LoRA参数,降低通信成本。同时,服务器端根据客户端数据和模型参数的相似性学习个性化的聚合权重,从而提升模型在异构数据上的性能。这种方法旨在在通信效率、模型性能和数据隐私之间取得平衡。
技术框架:CE-LoRA的整体框架包括以下几个阶段:1) 客户端本地训练:每个客户端使用本地数据,基于三因子分解的LoRA方法微调预训练模型。2) 参数上传:客户端将压缩后的LoRA参数上传到服务器。3) 服务器端聚合:服务器根据客户端数据和模型参数的相似性,学习个性化的聚合权重,并将客户端上传的参数进行聚合。4) 模型分发:服务器将聚合后的模型参数分发给客户端。
关键创新:CE-LoRA的关键创新在于:1) 提出了基于三因子分解的LoRA参数压缩方法,显著降低了通信成本。2) 引入了个性化模型聚合策略,服务器根据客户端数据和模型参数的相似性学习聚合权重,提升了模型在异构数据上的性能。3) 增强了数据隐私保护,有效缓解了梯度攻击。
关键设计:CE-LoRA的关键设计包括:1) LoRA参数的三因子分解:将LoRA的低秩矩阵分解为三个小矩阵,进一步降低参数量。2) 个性化聚合权重的学习:服务器使用客户端的训练数据和模型参数计算相似度,并基于此学习聚合权重。3) 损失函数的设计:损失函数可能包含模型性能损失和隐私保护损失,以平衡模型性能和隐私保护。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CE-LoRA在各种LLM和VLM微调任务上,显著降低了通信开销,同时提高了在非独立同分布数据条件下的模型性能。与传统的LoRA方法相比,CE-LoRA在通信效率上提升了XX%,在模型性能上提升了YY%。此外,CE-LoRA还提高了数据隐私保护,有效缓解了梯度攻击。
🎯 应用场景
CE-LoRA适用于各种需要联邦学习的场景,尤其是在数据异构性较高且通信资源受限的情况下。例如,可以应用于医疗健康领域,在保护患者隐私的前提下,利用不同医院的数据训练个性化的诊断模型;也可以应用于金融领域,在满足监管要求的前提下,利用不同机构的数据训练风险评估模型。该研究有助于推动联邦学习在实际场景中的应用。
📄 摘要(原文)
In federated learning, fine-tuning pre-trained foundation models poses significant challenges, particularly regarding high communication cost and suboptimal model performance due to data heterogeneity between the clients. To address these issues, this paper introduces communication-efficient federated LoRA adaption (CE-LoRA), a method that employs a tri-factorization low-rank adaptation approach with personalized model parameter aggregation. We first presents a novel LoRA parameter factorization by introducing a small-size dense matrix, which can significantly reduce the communication cost and achieve comparable empirical performance than transferring the low-rank parameter matrix used by existing methods. Without violating data privacy, the server considers the client similarity in both training dataset and model parameter space, and learns personalized weights for model aggregation. Our experiments on various LLM and VLM fine-tuning tasks demonstrate that CE-LoRA not only significantly reduces communication overhead but also improves performance under not independently and identically distributed data conditions. In addition, CE-LoRA improves data privacy protection, effectively mitigating gradient-based data reconstruction attacks.