Adaptive Prototype Knowledge Transfer for Federated Learning with Mixed Modalities and Heterogeneous Tasks

📄 arXiv: 2502.04400v2 📥 PDF

作者: Keke Gai, Mohan Wang, Jing Yu, Dongjue Wang, Qi Wu

分类: cs.LG, cs.AI, cs.CR, cs.MM

发布日期: 2025-02-06 (更新: 2025-08-03)


💡 一句话要点

提出AproMFL,解决混合模态联邦学习中异构任务和非统一标签问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 多模态学习 原型学习 知识迁移 异构任务

📋 核心要点

  1. 现有基于原型的多模态联邦学习方法假设客户端具有统一标签和相同任务,这在实际混合模态场景中是不切实际的。
  2. AproMFL通过自适应构建原型进行知识迁移,无需统一标签,并利用客户端关系图动态调整聚合权重,解决任务异构性问题。
  3. 实验结果表明,AproMFL在异构数据集和任务上优于现有基线方法,在准确率和召回率上均有显著提升。

📝 摘要(中文)

本文提出了一种自适应原型多模态联邦学习框架(AproMFL),用于解决混合模态联邦学习中存在的异构任务和非统一标签问题。AproMFL通过自适应构建原型来传递知识,无需统一标签。客户端根据标签自适应地选择原型构建方法;服务器将客户端原型转换为统一的多模态原型并进行聚类,形成全局原型。针对任务异构性中的模型聚合问题,开发了一种基于客户端关系图的方案,以动态调整聚合权重。此外,还提出了一种全局原型知识迁移损失和全局模型知识迁移损失,以实现全局知识向本地知识的迁移。实验结果表明,在三个高度异构的数据集(α=0.1)和两个异构任务上,AproMFL优于四个基线,准确率和召回率的最佳结果分别比基于FedAvg的MFL方法FedIoT高0.42%~6.09%和1.6%~3.89%。

🔬 方法详解

问题定义:现有的基于原型的多模态联邦学习方法通常假设所有客户端拥有统一的标签空间和执行相同的任务。然而,在实际应用中,尤其是在混合模态联邦学习场景下,不同客户端可能拥有不同的数据模态、标签体系以及需要完成的任务,这导致了现有方法无法直接应用。因此,该论文旨在解决混合模态联邦学习中存在的标签非统一和任务异构性问题。

核心思路:AproMFL的核心思路是通过自适应地构建和聚合原型来解决标签非统一和任务异构性问题。具体来说,每个客户端根据自身的数据和标签情况,选择合适的原型构建方法。服务器端则负责将来自不同客户端的原型进行统一和聚类,形成全局原型。同时,利用客户端关系图来动态调整模型聚合权重,以适应任务异构性。

技术框架:AproMFL框架主要包含以下几个模块:1) 客户端原型构建模块:每个客户端根据本地数据和标签自适应地构建原型。2) 服务器端原型聚合模块:服务器接收来自客户端的原型,将其转换为统一的多模态原型,并进行聚类,形成全局原型。3) 模型聚合模块:服务器利用客户端关系图动态调整模型聚合权重。4) 知识迁移模块:通过全局原型知识迁移损失和全局模型知识迁移损失,将全局知识迁移到本地模型。

关键创新:AproMFL的关键创新在于:1) 提出了自适应原型构建方法,允许客户端根据自身标签情况选择合适的原型构建策略,解决了标签非统一问题。2) 引入了客户端关系图,用于动态调整模型聚合权重,解决了任务异构性问题。3) 设计了全局原型知识迁移损失和全局模型知识迁移损失,促进了全局知识向本地知识的迁移。

关键设计:在客户端原型构建阶段,可以根据客户端拥有的标签信息选择不同的原型构建方法,例如,对于有完整标签的客户端,可以使用传统的原型学习方法;对于只有部分标签的客户端,可以使用半监督学习方法。在服务器端,可以使用K-means等聚类算法对原型进行聚类。客户端关系图可以通过分析客户端之间的任务相似性来构建。全局原型知识迁移损失和全局模型知识迁移损失可以使用交叉熵损失或均方误差损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在三个高度异构的数据集(α=0.1)和两个异构任务上,AproMFL优于四个基线方法。具体来说,AproMFL的准确率和召回率的最佳结果分别比基于FedAvg的MFL方法FedIoT高0.42%~6.09%和1.6%~3.89%。这些结果表明,AproMFL能够有效地解决混合模态联邦学习中的异构任务和非统一标签问题。

🎯 应用场景

AproMFL适用于各种混合模态联邦学习场景,例如智能医疗、智能交通和物联网等。在智能医疗中,不同医院可能拥有不同模态的医疗数据(如影像、文本、生理信号),且诊断任务各不相同。AproMFL可以帮助这些医院在保护患者隐私的前提下,协同训练一个高性能的诊断模型。该研究具有重要的实际价值,能够促进联邦学习技术在实际场景中的应用。

📄 摘要(原文)

Multimodal Federated Learning (MFL) with mixed modalities enables unimodal and multimodal clients to collaboratively train models while ensuring clients' privacy. As a representative sample of local data, prototypes offer an approach with low resource consumption and no reliance on prior knowledge for MFL with mixed modalities. However, existing prototype-based MFL methods assume unified labels across clients and identical tasks per client, which is impractical in MFL with mixed modalities. In this work, we propose an Adaptive prototype-based Multimodal Federated Learning (AproMFL) framework for mixed modalities to address the aforementioned issues. Our AproMFL transfers knowledge through adaptively-constructed prototypes without unified labels. Clients adaptively select prototype construction methods in line with labels; server converts client prototypes into unified multimodal prototypes and cluster them to form global prototypes. To address model aggregation issues in task heterogeneity, we develop a client relationship graph-based scheme to dynamically adjust aggregation weights. Furthermore, we propose a global prototype knowledge transfer loss and a global model knowledge transfer loss to enable the transfer of global knowledge to local knowledge. Experimental results show that AproMFL outperforms four baselines on three highly heterogeneous datasets ($α=0.1$) and two heterogeneous tasks, with the optimal results in accuracy and recall being 0.42%~6.09% and 1.6%~3.89% higher than those of FedIoT (FedAvg-based MFL), respectively.