Optimized Federated Knowledge Distillation with Distributed Neural Architecture Search

📄 arXiv: 2605.21322v1 📥 PDF

作者: Chaimaa Medjadji, Sylvain Kubler, Yves Le Traon, Guilain Leduc, Sadi Alawadi, Feras M. Awaysheh

分类: cs.LG

发布日期: 2026-05-20


💡 一句话要点

FedKDNAS:结合分布式NAS与知识蒸馏的优化联邦学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 知识蒸馏 神经架构搜索 模型压缩 异构环境

📋 核心要点

  1. 现有联邦学习方法通常假设客户端架构固定,无法适应异构数据和硬件约束,导致精度和效率的次优权衡。
  2. FedKDNAS通过结合客户端神经架构搜索和服务器协调的知识蒸馏,使每个客户端能够自主选择轻量级模型。
  3. 实验表明,FedKDNAS在非IID条件下显著提升了准确率,降低了CPU使用率和通信开销,实现了更好的帕累托效率。

📝 摘要(中文)

联邦学习(FL)支持在不集中数据的情况下进行协同模型训练。然而,实际部署必须同时解决客户端数据中的统计异质性(非IID)、设备能力中的系统异质性和通信效率问题。现有的FL方法通过改进聚合、个性化或知识蒸馏来缓解这些挑战,但几乎都假设固定的客户端架构,限制了对异构数据复杂性和硬件约束的适应性。这种架构约束通常导致实际FL系统中准确性和效率之间的次优权衡。本文提出FedKDNAS,这是一个蒸馏驱动的FL框架,它结合了客户端神经架构搜索与服务器协调知识的蒸馏。每个客户端在精度-资源约束下自主选择一个轻量级模型,然后使用混合目标(结合监督学习和知识蒸馏)在本地训练它,并仅共享公共参考集上的预测。然后,服务器聚合和平滑这些预测,可以选择将其与教师模型结合,从而为下一轮生成稳定的蒸馏目标。在六个数据集上针对六个代表性FL基线(FedAvg、Ditto、FedMD、FedDF、FedDistill、Local-KD)的广泛评估表明,FedKDNAS始终实现卓越的帕累托效率,在非IID条件下将准确率提高高达15%,将客户端CPU使用率降低约28%,并将通信开销降低高达44倍,同时保持轻量级的基于logits的通信。

🔬 方法详解

问题定义:联邦学习在实际应用中面临客户端数据异构性、设备性能差异以及通信效率的挑战。现有方法通常假设客户端模型架构固定,无法根据数据和设备特性进行优化,导致性能瓶颈。

核心思路:FedKDNAS的核心在于允许每个客户端根据自身的资源约束和数据特性,通过神经架构搜索(NAS)选择合适的轻量级模型。同时,利用知识蒸馏,将服务器端的全局知识传递给客户端,提高客户端模型的泛化能力。

技术框架:FedKDNAS包含以下主要阶段:1) 客户端模型选择:每个客户端在本地进行神经架构搜索,选择满足精度和资源约束的模型。2) 客户端本地训练:客户端使用混合目标函数,结合监督学习和知识蒸馏,在本地数据上训练模型。3) 预测共享:客户端仅将模型在公共参考集上的预测结果发送到服务器。4) 服务器端聚合:服务器聚合客户端的预测结果,并进行平滑处理,生成稳定的蒸馏目标。5) 知识蒸馏:服务器将蒸馏目标传递给客户端,用于下一轮的本地训练。

关键创新:FedKDNAS的关键创新在于将神经架构搜索与知识蒸馏相结合,实现了客户端模型的自适应选择和全局知识的有效传递。与现有方法相比,FedKDNAS能够更好地适应异构环境,提高模型的准确性和效率。

关键设计:客户端的神经架构搜索过程需要定义搜索空间、评估指标和搜索策略。混合目标函数通常包含交叉熵损失和KL散度损失,用于平衡监督学习和知识蒸馏。服务器端的聚合策略可以采用加权平均或其他更复杂的算法,以提高蒸馏目标的质量。

📊 实验亮点

实验结果表明,FedKDNAS在六个数据集上均优于现有的联邦学习基线方法。在非IID条件下,FedKDNAS的准确率提高了高达15%,客户端CPU使用率降低了约28%,通信开销降低了高达44倍。这些结果表明,FedKDNAS能够显著提高联邦学习系统的性能和效率。

🎯 应用场景

FedKDNAS适用于各种联邦学习场景,例如移动设备上的图像分类、医疗数据分析和金融风险预测。该方法能够有效利用异构数据和设备资源,提高模型性能和效率,并保护用户隐私。未来,FedKDNAS可以扩展到更复杂的任务和模型,例如自然语言处理和生成对抗网络。

📄 摘要(原文)

Federated Learning (FL) enables collaborative model training without centralizing data. However, real-world deployments must simultaneously address statistical heterogeneity across client data (non-IID), system heterogeneity in device capabilities, and communication efficiency. Existing FL approaches mitigate these challenges through improved aggregation, personalization, or knowledge distillation, but they almost universally assume a fixed client architecture, limiting adaptability to heterogeneous data complexity and hardware constraints. This architectural constraint often leads to suboptimal trade-offs between accuracy and efficiency in real-world FL systems. This work introduces FedKDNAS, a distillation-driven FL framework that combines client-side neural architecture selection with distillation of server-coordinated knowledge. Each client autonomously selects a lightweight model under accuracy-resource constraints. It then trains it locally using a hybrid objective combining supervised learning and knowledge distillation and shares only predictions on a public reference set. The server then aggregates and smooths these predictions, optionally combining them with a teacher model, to produce stable distillation targets for the next round. Extensive evaluation on six datasets against six representative FL baselines (FedAvg, Ditto, FedMD, FedDF, FedDistill, Local-KD) demonstrates that FedKDNAS consistently achieves superior Pareto efficiency, improving accuracy by up to 15\% under non-IID conditions, reducing client CPU usage by approximately 28\%, and decreasing communication overhead by up to 44 times while maintaining lightweight logit-based communication.