CLIP-guided Federated Learning on Heterogeneous and Long-Tailed Data

作者: Jiangming Shi, Shanshan Zheng, Xiangbo Yin, Yang Lu, Yuan Xie, Yanyun Qu

分类: cs.CV

发布日期: 2023-12-14

备注: This paper has been accepted by AAAI24

💡 一句话要点

提出CLIP2FL方法，利用CLIP模型优化异构长尾联邦学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 联邦学习 CLIP模型 知识蒸馏 对比学习 异构数据 长尾分布 跨模态学习

📋 核心要点

联邦学习面临用户异构性和长尾数据分布的双重挑战，导致全局模型性能下降。
CLIP2FL利用CLIP的跨模态知识，通过知识蒸馏和原型对比学习，弥合客户端与服务器之间的差距。
通过联邦特征生成和重训练，CLIP2FL能够有效缓解异构性和类别不平衡问题，提升全局模型性能。

📝 摘要（中文）

联邦学习(FL)提供了一种去中心化的机器学习范式，其中服务器与一组客户端协作，在不访问客户端数据的情况下学习全局模型。用户异构性是FL的一个重大挑战，加上类分布不平衡，进一步增加了FL的难度。大型视觉-语言模型，如对比语言-图像预训练(CLIP)，取得了巨大进展，为图像分类和目标识别开辟了一条新途径。受CLIP在少样本和零样本学习上的成功启发，我们使用CLIP来优化服务器和客户端模型之间的联邦学习，利用其视觉-语言监督。由于强大的跨模态表示和丰富的开放词汇先验知识，这有望缓解用户异构性和类分布不平衡。在本文中，我们提出了在异构和长尾数据上的CLIP引导的FL (CLIP2FL)方法。在CLIP2FL中，现成的CLIP模型的知识被转移到客户端-服务器模型，并在客户端和服务器之间建立桥梁。具体来说，对于客户端学习，在客户端模型和CLIP之间进行知识蒸馏，以提高客户端特征表示的能力。对于服务器端学习，为了缓解异构性和类分布不平衡，我们生成联邦特征来重新训练服务器模型。引入了一种在CLIP文本编码器监督下的原型对比学习，以生成依赖于客户端梯度的联邦特征，并使用它们来重新训练一个平衡的服务器分类器。

🔬 方法详解

问题定义：联邦学习在异构和长尾数据场景下，由于客户端数据分布差异大，导致全局模型训练困难，性能受限。现有方法难以有效利用客户端知识，且容易受到头部类别的影响，忽略尾部类别。

核心思路：利用CLIP强大的跨模态表示能力和丰富的先验知识，指导联邦学习过程。通过CLIP将视觉信息与文本信息对齐，从而缓解客户端数据异构性带来的影响，并提升模型对尾部类别的识别能力。

技术框架：CLIP2FL包含客户端学习和服务器端学习两个阶段。在客户端，利用CLIP进行知识蒸馏，提升客户端模型的特征表示能力。在服务器端，通过原型对比学习生成联邦特征，并利用这些特征重新训练服务器模型，以缓解异构性和类别不平衡问题。

关键创新：引入CLIP模型作为联邦学习的指导，利用其跨模态知识来优化客户端和服务器之间的模型训练。通过原型对比学习生成联邦特征，从而更好地平衡不同客户端的数据分布，并提升模型对尾部类别的识别能力。

关键设计：客户端知识蒸馏使用CLIP的视觉编码器作为教师模型，指导客户端模型的训练。服务器端原型对比学习使用CLIP的文本编码器来生成类别原型，并利用这些原型来生成联邦特征。损失函数包括知识蒸馏损失、对比学习损失和分类损失。

📊 实验亮点

论文提出的CLIP2FL方法在异构和长尾数据集上取得了显著的性能提升。实验结果表明，CLIP2FL优于现有的联邦学习方法，尤其是在尾部类别的识别方面。具体的性能数据需要在论文中查找，此处无法给出。

🎯 应用场景

该研究成果可应用于医疗影像分析、自动驾驶、智能零售等领域，在这些领域中，数据通常分布在不同的客户端上，且存在异构性和长尾分布。CLIP2FL能够有效利用这些分散的数据，训练出高性能的全局模型，从而提升相关应用的智能化水平。

📄 摘要（原文）

Federated learning (FL) provides a decentralized machine learning paradigm where a server collaborates with a group of clients to learn a global model without accessing the clients' data. User heterogeneity is a significant challenge for FL, which together with the class-distribution imbalance further enhances the difficulty of FL. Great progress has been made in large vision-language models, such as Contrastive Language-Image Pre-training (CLIP), which paves a new way for image classification and object recognition. Inspired by the success of CLIP on few-shot and zero-shot learning, we use CLIP to optimize the federated learning between server and client models under its vision-language supervision. It is promising to mitigate the user heterogeneity and class-distribution balance due to the powerful cross-modality representation and rich open-vocabulary prior knowledge. In this paper, we propose the CLIP-guided FL (CLIP2FL) method on heterogeneous and long-tailed data. In CLIP2FL, the knowledge of the off-the-shelf CLIP model is transferred to the client-server models, and a bridge is built between the client and server. Specifically, for client-side learning, knowledge distillation is conducted between client models and CLIP to improve the ability of client-side feature representation. For server-side learning, in order to mitigate the heterogeneity and class-distribution imbalance, we generate federated features to retrain the server model. A prototype contrastive learning with the supervision of the text encoder of CLIP is introduced to generate federated features depending on the client-side gradients, and they are used to retrain a balanced server classifier.

CLIP-guided Federated Learning on Heterogeneous and Long-Tailed Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册