Optimized Federated Knowledge Distillation with Distributed Neural Architecture Search

作者: Chaimaa Medjadji, Sylvain Kubler, Yves Le Traon, Guilain Leduc, Sadi Alawadi, Feras M. Awaysheh

分类: cs.LG

发布日期: 2026-05-20

💡 一句话要点

FedKDNAS：结合分布式NAS与知识蒸馏的优化联邦学习框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 联邦学习 知识蒸馏 神经架构搜索 模型压缩 异构环境

📋 核心要点

现有联邦学习方法通常假设客户端架构固定，无法适应异构数据和硬件约束，导致精度和效率的次优权衡。
FedKDNAS通过结合客户端神经架构搜索和服务器协调的知识蒸馏，使每个客户端能够自主选择轻量级模型。
实验表明，FedKDNAS在非IID条件下显著提升了准确率，降低了CPU使用率和通信开销，实现了更好的帕累托效率。

📝 摘要（中文）

联邦学习(FL)支持在不集中数据的情况下进行协同模型训练。然而，实际部署必须同时解决客户端数据中的统计异质性(非IID)、设备能力中的系统异质性和通信效率问题。现有的FL方法通过改进聚合、个性化或知识蒸馏来缓解这些挑战，但几乎都假设固定的客户端架构，限制了对异构数据复杂性和硬件约束的适应性。这种架构约束通常导致实际FL系统中准确性和效率之间的次优权衡。本文提出FedKDNAS，这是一个蒸馏驱动的FL框架，它结合了客户端神经架构搜索与服务器协调知识的蒸馏。每个客户端在精度-资源约束下自主选择一个轻量级模型，然后使用混合目标(结合监督学习和知识蒸馏)在本地训练它，并仅共享公共参考集上的预测。然后，服务器聚合和平滑这些预测，可以选择将其与教师模型结合，从而为下一轮生成稳定的蒸馏目标。在六个数据集上针对六个代表性FL基线(FedAvg、Ditto、FedMD、FedDF、FedDistill、Local-KD)的广泛评估表明，FedKDNAS始终实现卓越的帕累托效率，在非IID条件下将准确率提高高达15%，将客户端CPU使用率降低约28%，并将通信开销降低高达44倍，同时保持轻量级的基于logits的通信。

🔬 方法详解

问题定义：联邦学习在实际应用中面临客户端数据异构性、设备性能差异以及通信效率的挑战。现有方法通常假设客户端模型架构固定，无法根据数据和设备特性进行优化，导致性能瓶颈。

核心思路：FedKDNAS的核心在于允许每个客户端根据自身的资源约束和数据特性，通过神经架构搜索(NAS)选择合适的轻量级模型。同时，利用知识蒸馏，将服务器端的全局知识传递给客户端，提高客户端模型的泛化能力。

技术框架：FedKDNAS包含以下主要阶段：1) 客户端模型选择：每个客户端在本地进行神经架构搜索，选择满足精度和资源约束的模型。2) 客户端本地训练：客户端使用混合目标函数，结合监督学习和知识蒸馏，在本地数据上训练模型。3) 预测共享：客户端仅将模型在公共参考集上的预测结果发送到服务器。4) 服务器端聚合：服务器聚合客户端的预测结果，并进行平滑处理，生成稳定的蒸馏目标。5) 知识蒸馏：服务器将蒸馏目标传递给客户端，用于下一轮的本地训练。

关键创新：FedKDNAS的关键创新在于将神经架构搜索与知识蒸馏相结合，实现了客户端模型的自适应选择和全局知识的有效传递。与现有方法相比，FedKDNAS能够更好地适应异构环境，提高模型的准确性和效率。

关键设计：客户端的神经架构搜索过程需要定义搜索空间、评估指标和搜索策略。混合目标函数通常包含交叉熵损失和KL散度损失，用于平衡监督学习和知识蒸馏。服务器端的聚合策略可以采用加权平均或其他更复杂的算法，以提高蒸馏目标的质量。

📊 实验亮点

实验结果表明，FedKDNAS在六个数据集上均优于现有的联邦学习基线方法。在非IID条件下，FedKDNAS的准确率提高了高达15%，客户端CPU使用率降低了约28%，通信开销降低了高达44倍。这些结果表明，FedKDNAS能够显著提高联邦学习系统的性能和效率。

🎯 应用场景

FedKDNAS适用于各种联邦学习场景，例如移动设备上的图像分类、医疗数据分析和金融风险预测。该方法能够有效利用异构数据和设备资源，提高模型性能和效率，并保护用户隐私。未来，FedKDNAS可以扩展到更复杂的任务和模型，例如自然语言处理和生成对抗网络。

📄 摘要（原文）

Federated Learning (FL) enables collaborative model training without centralizing data. However, real-world deployments must simultaneously address statistical heterogeneity across client data (non-IID), system heterogeneity in device capabilities, and communication efficiency. Existing FL approaches mitigate these challenges through improved aggregation, personalization, or knowledge distillation, but they almost universally assume a fixed client architecture, limiting adaptability to heterogeneous data complexity and hardware constraints. This architectural constraint often leads to suboptimal trade-offs between accuracy and efficiency in real-world FL systems. This work introduces FedKDNAS, a distillation-driven FL framework that combines client-side neural architecture selection with distillation of server-coordinated knowledge. Each client autonomously selects a lightweight model under accuracy-resource constraints. It then trains it locally using a hybrid objective combining supervised learning and knowledge distillation and shares only predictions on a public reference set. The server then aggregates and smooths these predictions, optionally combining them with a teacher model, to produce stable distillation targets for the next round. Extensive evaluation on six datasets against six representative FL baselines (FedAvg, Ditto, FedMD, FedDF, FedDistill, Local-KD) demonstrates that FedKDNAS consistently achieves superior Pareto efficiency, improving accuracy by up to 15\% under non-IID conditions, reducing client CPU usage by approximately 28\%, and decreasing communication overhead by up to 44 times while maintaining lightweight logit-based communication.

Optimized Federated Knowledge Distillation with Distributed Neural Architecture Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理