CLIP-guided Federated Learning on Heterogeneous and Long-Tailed Data
作者: Jiangming Shi, Shanshan Zheng, Xiangbo Yin, Yang Lu, Yuan Xie, Yanyun Qu
分类: cs.CV
发布日期: 2023-12-14
备注: This paper has been accepted by AAAI24
💡 一句话要点
提出CLIP2FL方法,利用CLIP模型优化异构长尾联邦学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 联邦学习 CLIP模型 知识蒸馏 对比学习 异构数据 长尾分布 跨模态学习
📋 核心要点
- 联邦学习面临用户异构性和长尾数据分布的双重挑战,导致全局模型性能下降。
- CLIP2FL利用CLIP的跨模态知识,通过知识蒸馏和原型对比学习,弥合客户端与服务器之间的差距。
- 通过联邦特征生成和重训练,CLIP2FL能够有效缓解异构性和类别不平衡问题,提升全局模型性能。
📝 摘要(中文)
联邦学习(FL)提供了一种去中心化的机器学习范式,其中服务器与一组客户端协作,在不访问客户端数据的情况下学习全局模型。用户异构性是FL的一个重大挑战,加上类分布不平衡,进一步增加了FL的难度。大型视觉-语言模型,如对比语言-图像预训练(CLIP),取得了巨大进展,为图像分类和目标识别开辟了一条新途径。受CLIP在少样本和零样本学习上的成功启发,我们使用CLIP来优化服务器和客户端模型之间的联邦学习,利用其视觉-语言监督。由于强大的跨模态表示和丰富的开放词汇先验知识,这有望缓解用户异构性和类分布不平衡。在本文中,我们提出了在异构和长尾数据上的CLIP引导的FL (CLIP2FL)方法。在CLIP2FL中,现成的CLIP模型的知识被转移到客户端-服务器模型,并在客户端和服务器之间建立桥梁。具体来说,对于客户端学习,在客户端模型和CLIP之间进行知识蒸馏,以提高客户端特征表示的能力。对于服务器端学习,为了缓解异构性和类分布不平衡,我们生成联邦特征来重新训练服务器模型。引入了一种在CLIP文本编码器监督下的原型对比学习,以生成依赖于客户端梯度的联邦特征,并使用它们来重新训练一个平衡的服务器分类器。
🔬 方法详解
问题定义:联邦学习在异构和长尾数据场景下,由于客户端数据分布差异大,导致全局模型训练困难,性能受限。现有方法难以有效利用客户端知识,且容易受到头部类别的影响,忽略尾部类别。
核心思路:利用CLIP强大的跨模态表示能力和丰富的先验知识,指导联邦学习过程。通过CLIP将视觉信息与文本信息对齐,从而缓解客户端数据异构性带来的影响,并提升模型对尾部类别的识别能力。
技术框架:CLIP2FL包含客户端学习和服务器端学习两个阶段。在客户端,利用CLIP进行知识蒸馏,提升客户端模型的特征表示能力。在服务器端,通过原型对比学习生成联邦特征,并利用这些特征重新训练服务器模型,以缓解异构性和类别不平衡问题。
关键创新:引入CLIP模型作为联邦学习的指导,利用其跨模态知识来优化客户端和服务器之间的模型训练。通过原型对比学习生成联邦特征,从而更好地平衡不同客户端的数据分布,并提升模型对尾部类别的识别能力。
关键设计:客户端知识蒸馏使用CLIP的视觉编码器作为教师模型,指导客户端模型的训练。服务器端原型对比学习使用CLIP的文本编码器来生成类别原型,并利用这些原型来生成联邦特征。损失函数包括知识蒸馏损失、对比学习损失和分类损失。
📊 实验亮点
论文提出的CLIP2FL方法在异构和长尾数据集上取得了显著的性能提升。实验结果表明,CLIP2FL优于现有的联邦学习方法,尤其是在尾部类别的识别方面。具体的性能数据需要在论文中查找,此处无法给出。
🎯 应用场景
该研究成果可应用于医疗影像分析、自动驾驶、智能零售等领域,在这些领域中,数据通常分布在不同的客户端上,且存在异构性和长尾分布。CLIP2FL能够有效利用这些分散的数据,训练出高性能的全局模型,从而提升相关应用的智能化水平。
📄 摘要(原文)
Federated learning (FL) provides a decentralized machine learning paradigm where a server collaborates with a group of clients to learn a global model without accessing the clients' data. User heterogeneity is a significant challenge for FL, which together with the class-distribution imbalance further enhances the difficulty of FL. Great progress has been made in large vision-language models, such as Contrastive Language-Image Pre-training (CLIP), which paves a new way for image classification and object recognition. Inspired by the success of CLIP on few-shot and zero-shot learning, we use CLIP to optimize the federated learning between server and client models under its vision-language supervision. It is promising to mitigate the user heterogeneity and class-distribution balance due to the powerful cross-modality representation and rich open-vocabulary prior knowledge. In this paper, we propose the CLIP-guided FL (CLIP2FL) method on heterogeneous and long-tailed data. In CLIP2FL, the knowledge of the off-the-shelf CLIP model is transferred to the client-server models, and a bridge is built between the client and server. Specifically, for client-side learning, knowledge distillation is conducted between client models and CLIP to improve the ability of client-side feature representation. For server-side learning, in order to mitigate the heterogeneity and class-distribution imbalance, we generate federated features to retrain the server model. A prototype contrastive learning with the supervision of the text encoder of CLIP is introduced to generate federated features depending on the client-side gradients, and they are used to retrain a balanced server classifier.