FedeKD: Energy-Based Gating for Robust Federated Knowledge Distillation under Heterogeneous Settings

📄 arXiv: 2605.05553v1 📥 PDF

作者: Quang-Huy Nguyen, Jiaqi Wang, Wei-shinn Ku

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出FedeKD框架,利用基于能量的门控机制解决异构联邦知识蒸馏中的负迁移问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 知识蒸馏 负迁移 异构数据 能量模型 模型压缩 隐私保护

📋 核心要点

  1. 现有联邦知识蒸馏方法常依赖公共数据集,且错误地假设所有传输知识均可靠,导致在异构环境下产生负迁移。
  2. FedeKD引入基于能量的门控机制,将私有模型与代理模型的差异转化为样本级信任权重,实现自适应知识迁移。
  3. 实验证明该方法在六个真实数据集上有效抑制了负迁移,在异构数据分布下显著提升了模型预测性能。

📝 摘要(中文)

联邦学习(FL)通常运行在异构环境中,数据分布的差异和非对称模型设计往往导致负迁移。虽然联邦知识蒸馏(FKD)避免了直接共享模型参数,但现有方法通常依赖公共数据集,或假设传输的知识具有统一的可靠性,这限制了其在实际应用中的鲁棒性。本文提出了FedeKD,这是一个具备可靠性感知能力的FKD框架,它将样本级的信任度估计作为知识迁移的显式组件,且无需额外的公共数据。每个客户端维护一个用于本地学习的高容量私有模型和一个用于跨客户端知识交换的轻量级共享代理模型。在训练过程中,代理模型在服务器端聚合形成全局代理,进而指导私有模型的更新。FedeKD的核心是一个基于能量的门控机制,它将任务特定的私有-代理差异转化为样本级的信任权重,用于反向蒸馏。该机制实现了知识迁移的样本级加权,使代理模型在可靠样本上贡献更多,同时降低不可靠样本的权重。在六个真实数据集上的广泛实验表明,FedeKD在异构设置下显著减少了负迁移,并保持了强大的预测性能。

🔬 方法详解

问题定义:论文旨在解决联邦学习中因数据异构(Non-IID)和模型异构导致的“负迁移”问题。现有FKD方法往往盲目信任全局知识,在本地数据分布与全局知识冲突时,会导致模型性能下降。

核心思路:引入“可靠性感知”机制,通过显式评估本地私有模型与共享代理模型之间的知识一致性,动态调整知识蒸馏的权重,确保仅从可靠的知识源进行学习。

技术框架:框架包含双模型架构:客户端维护高容量私有模型(负责本地任务)和轻量级代理模型(负责通信)。服务器端聚合代理模型生成全局代理,客户端通过基于能量的门控机制计算样本级权重,指导私有模型从全局代理中蒸馏知识。

关键创新:核心创新在于基于能量的门控机制(Energy-based Gating),它无需额外公共数据,通过量化私有模型与代理模型在特定样本上的预测差异,自动识别并过滤掉不可靠的知识迁移。

关键设计:利用能量函数建模私有-代理模型间的差异,将差异值映射为样本权重。在反向蒸馏过程中,对高差异样本赋予低权重,对低差异样本赋予高权重,从而实现对噪声知识的鲁棒性过滤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在六个真实数据集上的实验表明,FedeKD在处理高度异构的数据分布时,相比传统FKD方法显著降低了负迁移现象。实验结果显示,该方法在保持通信效率的同时,显著提升了全局模型在各客户端的预测准确率,证明了其在复杂异构环境下的优越鲁棒性。

🎯 应用场景

该方法适用于医疗影像分析、金融风控及边缘计算等对数据隐私要求极高且各节点数据分布差异巨大的场景。通过增强联邦学习在异构环境下的鲁棒性,FedeKD能够有效提升分布式协作学习的效率,降低对中心化公共数据集的依赖,具有广泛的工业应用前景。

📄 摘要(原文)

Federated learning (FL) operates in heterogeneous environments, where variations in data distributions and asymmetric model design often result in negative transfer. While federated knowledge distillation (FKD) avoids direct model parameter sharing, existing methods typically rely on public datasets or assume that transferred knowledge is uniformly reliable, which limits their robustness in practice. This paper presents FedeKD, a reliability-aware FKD framework that makes sample-wise trust estimation an explicit component of knowledge transfer, without relying on additional public data. Each client maintains a high-capacity private model for local learning and a lightweight shared proxy model for cross-client knowledge exchange. During training, proxy models are aggregated on the server to form a global proxy, which is then used to guide updates of the private models. At the core of FedeKD is an energy-based gating mechanism that converts task-specific private-proxy disagreement into sample-wise trust weights for backward distillation. This mechanism enables sample-wise weighting of knowledge transfer, where the proxy model contributes more to reliable samples while down-weighting unreliable ones. Extensive experiments on six real-world datasets demonstrate that FedeKD significantly reduces negative transfer under heterogeneous settings while maintaining strong predictive performance.