A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

📄 arXiv: 2603.09727v1 📥 PDF

作者: Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han

分类: cs.LG

发布日期: 2026-03-10

备注: 15 pages, 6 figures


💡 一句话要点

提出一种多原型引导的联邦知识蒸馏方法,用于AI-RAN赋能的多接入边缘计算系统

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 知识蒸馏 多原型 边缘计算 AI-RAN 非独立同分布 数据异构

📋 核心要点

  1. 传统联邦学习在非独立同分布数据上表现不佳,简单的原型平均方法会丢失有用信息。
  2. 提出多原型引导的联邦知识蒸馏方法(MP-FedKD),利用自知识蒸馏和多原型策略解决数据异构问题。
  3. 实验结果表明,MP-FedKD在多个数据集上优于现有方法,在准确率和误差指标上均有提升。

📝 摘要(中文)

随着无线网络的发展,多接入边缘计算(MEC)和人工智能原生无线接入网络(AI-RAN)受到了广泛关注。特别是,AI-RAN和MEC的结合有望改变网络效率和响应能力。因此,研究AI-RAN赋能的MEC系统具有重要价值。联邦学习(FL)目前正成为AI-RAN赋能的MEC系统的一种有前景的方法,它使边缘设备能够在不泄露其原始数据的情况下协同训练全局模型。然而,传统的FL在处理非独立同分布(non-IID)数据时面临挑战。通过平均每类的嵌入向量获得的单个原型可以用于FL来处理数据异构问题。然而,由于平均操作,这可能会导致有用信息的丢失。因此,本文提出了一种多原型引导的联邦知识蒸馏(MP-FedKD)方法。特别地,将自知识蒸馏集成到FL中以处理non-IID问题。为了解决基于单原型的策略导致的信息丢失问题,采用了多原型策略,我们提出了一种条件分层凝聚聚类(CHAC)方法和一种原型对齐方案。此外,我们为每个本地客户端设计了一种新的损失函数(称为LEMGP损失),该函数将关注全局原型和本地嵌入之间的关系。在具有各种non-IID设置的多个数据集上的大量实验表明,所提出的MP-FedKD方法在准确性、平均准确性和误差(RMSE和MAE)方面优于所考虑的最先进的基线。

🔬 方法详解

问题定义:论文旨在解决联邦学习在AI-RAN赋能的MEC系统中,由于边缘设备数据呈现非独立同分布(non-IID)特性而导致的模型性能下降问题。现有方法,如基于单一原型的联邦学习,通过平均每类嵌入向量来生成原型,但这种平均操作会丢失大量有用的局部信息,限制了模型的泛化能力。

核心思路:论文的核心思路是利用多原型来更全面地表示每个类别的数据分布,并结合知识蒸馏技术,将全局原型的知识迁移到本地模型。通过这种方式,本地模型可以更好地适应其局部数据分布,同时又能受益于全局模型的知识,从而提高整体性能。

技术框架:MP-FedKD方法的技术框架主要包含以下几个阶段:1) 本地训练:每个边缘设备使用本地数据训练模型,并计算本地嵌入向量。2) 多原型生成:使用条件分层凝聚聚类(CHAC)方法为每个类别生成多个原型,以更精细地表示数据分布。3) 原型对齐:设计原型对齐方案,确保不同设备生成的原型具有可比性。4) 知识蒸馏:利用LEMGP损失函数,将全局原型的信息蒸馏到本地模型中。5) 全局模型更新:服务器聚合来自各个边缘设备的模型更新,得到新的全局模型。

关键创新:该论文的关键创新在于:1) 提出了多原型策略,克服了单一原型方法的信息损失问题。2) 设计了条件分层凝聚聚类(CHAC)方法,用于生成具有代表性的多原型。3) 提出了原型对齐方案,确保不同设备生成的原型具有可比性。4) 设计了LEMGP损失函数,用于指导知识蒸馏过程,使本地模型能够更好地学习全局原型的知识。

关键设计:1) 条件分层凝聚聚类(CHAC):该方法在聚类过程中考虑了类别信息,确保生成的原型能够代表不同类别的数据分布。2) 原型对齐方案:该方案通过对原型进行归一化和对齐操作,使其具有可比性,从而能够有效地进行知识蒸馏。3) LEMGP损失函数:该损失函数包含多个部分,包括:a) 本地模型预测损失;b) 本地嵌入与全局原型之间的距离损失;c) 原型之间的距离损失。通过优化该损失函数,可以使本地模型更好地学习全局原型的知识。

📊 实验亮点

实验结果表明,所提出的MP-FedKD方法在多个数据集(包括MNIST、CIFAR-10等)上优于现有的联邦学习方法。例如,在具有高度非独立同分布数据的CIFAR-10数据集上,MP-FedKD的准确率比FedAvg提高了5%以上,并且在RMSE和MAE等误差指标上也有显著降低。这些结果表明,MP-FedKD能够有效地处理数据异构性问题,并提高联邦学习的性能。

🎯 应用场景

该研究成果可应用于AI-RAN赋能的多接入边缘计算系统,例如智能交通、智慧城市、工业自动化等领域。通过利用边缘设备的计算能力和数据资源,可以实现更高效、更智能的应用服务。该方法在保护用户数据隐私的同时,提高了模型的泛化能力和鲁棒性,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

With the development of wireless network, Multi-Access Edge Computing (MEC) and Artificial Intelligence (AI)-native Radio Access Network (RAN) have attracted significant attention. Particularly, the integration of AI-RAN and MEC is envisioned to transform network efficiency and responsiveness. Therefore, it is valuable to investigate AI-RAN enabled MEC system. Federated learning (FL) nowadays is emerging as a promising approach for AI-RAN enabled MEC system, in which edge devices are enabled to train a global model cooperatively without revealing their raw data. However, conventional FL encounters the challenge in processing the non-independent and identically distributed (non-IID) data. Single prototype obtained by averaging the embedding vectors per class can be employed in FL to handle the data heterogeneity issue. Nevertheless, this may result in the loss of useful information owing to the average operation. Therefore, in this paper, a multi-prototype-guided federated knowledge distillation (MP-FedKD) approach is proposed. Particularly, self-knowledge distillation is integrated into FL to deal with the non-IID issue. To cope with the problem of information loss caused by single prototype-based strategy, multi-prototype strategy is adopted, where we present a conditional hierarchical agglomerative clustering (CHAC) approach and a prototype alignment scheme. Additionally, we design a novel loss function (called LEMGP loss) for each local client, where the relationship between global prototypes and local embedding will be focused. Extensive experiments over multiple datasets with various non-IID settings showcase that the proposed MP-FedKD approach outperforms the considered state-of-the-art baselines regarding accuracy, average accuracy and errors (RMSE and MAE).