FedPIA -- Permuting and Integrating Adapters leveraging Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning

📄 arXiv: 2412.14424v1 📥 PDF

作者: Pramit Saha, Divyanshu Mishra, Felix Wagner, Konstantinos Kamnitsas, J. Alison Noble

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-12-19

备注: Accepted for publication in AAAI 2025 (Main Track)


💡 一句话要点

FedPIA:利用Wasserstein重心置换和集成适配器,用于多模态联邦学习中微调基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 多模态学习 视觉-语言模型 参数高效微调 Wasserstein重心 医学影像 数据异构性

📋 核心要点

  1. 现有联邦学习微调视觉-语言模型的方法,在数据和任务异构性下,适配器融合效果不佳,导致收敛速度慢和性能下降。
  2. FedPIA通过在服务器端置换和集成本地适配器,在客户端集成全局适配器,并利用Wasserstein重心进行知识融合,从而解决异构性问题。
  3. 实验结果表明,FedPIA在多个医学图像数据集和视觉-语言任务上,显著优于现有的参数高效联邦学习基线方法。

📝 摘要(中文)

大型视觉-语言模型通常需要大量的文本和图像数据集才能进行有效的微调。然而,从各个站点收集数据,尤其是在医疗保健领域,由于严格的隐私法规而具有挑战性。一种替代方案是在终端用户设备(如医疗诊所)上微调这些模型,而无需将数据发送到服务器。这些本地客户端通常计算能力有限且数据集较小,不足以单独完全微调大型VLM。一个简单的解决方案是利用参数高效微调(PEFT)策略,并应用联邦学习(FL)算法来组合学习到的适配器权重,从而尊重资源限制和数据隐私。然而,这种方法不能充分利用来自在不同数据分布和不同任务上训练的多个适配器的知识。适配器受到跨客户端的数据异构性和任务异构性的不利影响,导致次优收敛。为此,我们提出了一种名为FedPIA的新框架,该框架通过在服务器中置换和集成本地适配器,以及在客户端中集成全局适配器,利用Wasserstein重心来改进客户端特定和客户端不可知知识的混合,从而改进了FL和PEFT的简单组合。这种逐层置换有助于弥合集成之前本地和全局适配器的参数空间中的差距。我们进行了超过2000个客户端级别的实验,利用了跨五个不同医学视觉-语言FL任务设置的48个医学图像数据集,包括视觉问答以及基于图像和报告的多标签疾病检测。我们涉及不同客户端设置、十种不同模态和两个VLM骨干的实验表明,FedPIA始终优于最先进的PEFT-FL基线。

🔬 方法详解

问题定义:论文旨在解决多模态联邦学习中,由于数据异构性和任务异构性,直接应用参数高效微调(PEFT)和联邦学习(FL)策略微调视觉-语言模型(VLM)时,模型收敛速度慢、性能不佳的问题。现有方法无法充分利用来自不同客户端训练的适配器的知识,导致全局模型性能受限。

核心思路:论文的核心思路是通过在服务器端对本地适配器进行置换和集成,并在客户端集成全局适配器,从而弥合本地和全局适配器之间的参数空间差距。利用Wasserstein重心来融合客户端特定和客户端无关的知识,从而提高模型的泛化能力和收敛速度。这种方法旨在减轻数据和任务异构性对模型性能的影响。

技术框架:FedPIA框架包含以下主要阶段:1) 本地训练:每个客户端使用本地数据训练其适配器。2) 适配器置换:服务器接收到来自客户端的适配器后,对适配器层进行置换,以对齐不同客户端的参数空间。3) Wasserstein重心计算:服务器计算置换后的适配器的Wasserstein重心,得到全局适配器。4) 全局适配器集成:全局适配器被发送回客户端,并与本地适配器集成。5) 模型更新:客户端使用集成的适配器更新本地模型。

关键创新:论文的关键创新在于引入了适配器置换和Wasserstein重心融合机制,以解决联邦学习中数据和任务异构性带来的挑战。通过置换操作,可以更好地对齐不同客户端的适配器参数空间,从而提高融合效果。Wasserstein重心能够更好地捕捉不同客户端的知识分布,从而得到更具代表性的全局模型。

关键设计:论文的关键设计包括:1) 适配器置换策略:具体的置换方法未知,但其目标是最小化不同适配器之间的距离。2) Wasserstein重心计算:使用Wasserstein距离作为度量,计算适配器参数的重心。3) 适配器集成方式:具体如何将全局适配器与本地适配器集成未知,可能采用加权平均或其他融合策略。4) 损失函数:使用标准的视觉-语言任务损失函数,例如交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FedPIA在48个医学图像数据集和五个不同的医学视觉-语言联邦学习任务设置中,始终优于最先进的PEFT-FL基线方法。具体性能提升数据未知,但论文强调了FedPIA在不同客户端设置、十种不同模态和两个VLM骨干上的优越性,证明了其鲁棒性和泛化能力。

🎯 应用场景

FedPIA框架在医疗健康领域具有广泛的应用前景,例如可以用于多中心医学影像分析、疾病诊断和治疗方案推荐。通过联邦学习,可以保护患者隐私,同时利用不同医疗机构的数据来训练更强大的模型。该方法还可以应用于其他领域,如自动驾驶、金融风控等,在这些领域中,数据隐私和异构性是重要的挑战。

📄 摘要(原文)

Large Vision-Language Models typically require large text and image datasets for effective fine-tuning. However, collecting data from various sites, especially in healthcare, is challenging due to strict privacy regulations. An alternative is to fine-tune these models on end-user devices, such as in medical clinics, without sending data to a server. These local clients typically have limited computing power and small datasets, which are not enough for fully fine-tuning large VLMs on their own. A naive solution to these scenarios is to leverage parameter-efficient fine-tuning (PEFT) strategies and apply federated learning (FL) algorithms to combine the learned adapter weights, thereby respecting the resource limitations and data privacy. However, this approach does not fully leverage the knowledge from multiple adapters trained on diverse data distributions and for diverse tasks. The adapters are adversely impacted by data heterogeneity and task heterogeneity across clients resulting in suboptimal convergence. To this end, we propose a novel framework called FedPIA that improves upon the naive combinations of FL and PEFT by introducing Permutation and Integration of the local Adapters in the server and global Adapters in the clients exploiting Wasserstein barycenters for improved blending of client-specific and client-agnostic knowledge. This layerwise permutation helps to bridge the gap in the parameter space of local and global adapters before integration. We conduct over 2000 client-level experiments utilizing 48 medical image datasets across five different medical vision-language FL task settings encompassing visual question answering as well as image and report-based multi-label disease detection. Our experiments involving diverse client settings, ten different modalities, and two VLM backbones demonstrate that FedPIA consistently outperforms the state-of-the-art PEFT-FL baselines.