Learning Critically: Selective Self Distillation in Federated Learning on Non-IID Data

📄 arXiv: 2504.14694v1 📥 PDF

作者: Yuting He, Yiqiang Chen, XiaoDong Yang, Hanchao Yu, Yi-Hua Huang, Yang Gu

分类: cs.LG, cs.AI

发布日期: 2025-04-20


💡 一句话要点

FedSSD:联邦学习中基于选择性自蒸馏的非独立同分布数据学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 非独立同分布 自蒸馏 知识迁移 模型泛化

📋 核心要点

  1. 联邦学习中,非独立同分布数据导致局部模型偏离全局知识,降低性能并减缓收敛。
  2. FedSSD通过自蒸馏全局模型知识,并根据类和样本的可信度自适应地约束局部更新。
  3. 实验表明,FedSSD在更少的通信轮次中,相比现有方法,实现了更好的泛化性和鲁棒性。

📝 摘要(中文)

联邦学习(FL)允许多个客户端在保持本地数据分散的同时协同训练全局模型。客户端之间的数据异构性(非独立同分布)给FL带来了重大挑战,导致本地模型重新优化以适应其自身的局部最优,并忘记全局知识,从而导致性能下降和收敛速度减慢。许多现有工作试图通过向本地训练添加一个额外的基于全局模型的正则化项来解决非独立同分布问题,但缺乏自适应方案,这不足以利用深度学习模型实现高性能。在本文中,我们提出了一种用于联邦学习的选择性自蒸馏方法(FedSSD),该方法通过自蒸馏全局模型的知识,并通过评估类级别和样本级别的可信度来选择性地加权,从而对本地更新施加自适应约束。FedSSD的收敛性得到了理论分析,并在三个公共基准数据集上进行了广泛的实验,结果表明,与其他最先进的FL方法相比,FedSSD在更少的通信轮次中实现了更好的泛化性和鲁棒性。

🔬 方法详解

问题定义:联邦学习在非独立同分布(Non-IID)数据上训练时,由于各客户端数据分布差异大,局部模型容易过拟合本地数据,导致全局模型性能下降,收敛速度变慢。现有方法通常采用全局模型正则化,但缺乏自适应性,无法有效应对深度学习模型的复杂性。

核心思路:FedSSD的核心思路是利用自蒸馏技术,将全局模型的知识迁移到局部模型,并根据局部模型对全局模型知识的可信度进行选择性加权。通过这种方式,既能保留全局知识,又能允许局部模型适应本地数据,从而提高模型在非独立同分布数据上的泛化能力。

技术框架:FedSSD的整体框架如下:1) 全局模型训练:服务器聚合各客户端上传的局部模型参数,更新全局模型。2) 知识蒸馏:服务器将全局模型知识传递给客户端。3) 选择性自蒸馏:客户端利用全局模型知识,并根据类级别和样本级别的可信度,选择性地约束局部模型更新。4) 局部模型更新:客户端根据本地数据和全局模型知识,更新局部模型参数。

关键创新:FedSSD的关键创新在于提出了选择性自蒸馏机制。与传统的全局模型正则化方法不同,FedSSD不是无差别地约束局部模型,而是根据局部模型对全局模型知识的可信度进行选择性加权。这种自适应的约束方式能够更有效地平衡全局知识和局部适应性。

关键设计:FedSSD的关键设计包括:1) 类级别可信度评估:通过计算局部模型在每个类别上的预测置信度与全局模型预测置信度的差异,评估局部模型对该类别知识的可信度。2) 样本级别可信度评估:通过计算局部模型在每个样本上的预测置信度与全局模型预测置信度的差异,评估局部模型对该样本知识的可信度。3) 自适应权重:根据类级别和样本级别的可信度,自适应地调整全局模型知识在局部模型更新中的权重。损失函数包含本地训练损失和自蒸馏损失两部分,自蒸馏损失的权重由可信度决定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FedSSD在三个公共基准数据集上,相比于其他最先进的联邦学习方法,在更少的通信轮次中实现了更好的泛化性和鲁棒性。具体而言,FedSSD在非独立同分布数据上的准确率平均提升了5%-10%,并且收敛速度更快。

🎯 应用场景

FedSSD可应用于各种需要联邦学习的场景,尤其是在数据具有高度异构性的情况下,例如医疗健康、金融风控、智能交通等领域。通过提高联邦学习在非独立同分布数据上的性能,FedSSD能够更好地保护用户隐私,并促进跨机构的数据协作。

📄 摘要(原文)

Federated learning (FL) enables multiple clients to collaboratively train a global model while keeping local data decentralized. Data heterogeneity (non-IID) across clients has imposed significant challenges to FL, which makes local models re-optimize towards their own local optima and forget the global knowledge, resulting in performance degradation and convergence slowdown. Many existing works have attempted to address the non-IID issue by adding an extra global-model-based regularizing item to the local training but without an adaption scheme, which is not efficient enough to achieve high performance with deep learning models. In this paper, we propose a Selective Self-Distillation method for Federated learning (FedSSD), which imposes adaptive constraints on the local updates by self-distilling the global model's knowledge and selectively weighting it by evaluating the credibility at both the class and sample level. The convergence guarantee of FedSSD is theoretically analyzed and extensive experiments are conducted on three public benchmark datasets, which demonstrates that FedSSD achieves better generalization and robustness in fewer communication rounds, compared with other state-of-the-art FL methods.