FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts
作者: Hanzi Mei, Dongqi Cai, Ao Zhou, Shangguang Wang, Mengwei Xu
分类: cs.LG
发布日期: 2024-08-21
💡 一句话要点
提出FedMoE:一种基于异构专家混合的个性化联邦学习框架,用于解决FedLLM中的数据异构性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 个性化学习 专家混合模型 大型语言模型 数据异构性
📋 核心要点
- 联邦学习在大型语言模型微调中面临数据异构性挑战,现有方法难以兼顾模型通用性和个性化。
- FedMoE通过异构专家混合(MoE)架构,为每个客户端构建和优化个性化的子模型,提升模型灵活性。
- 实验结果表明,FedMoE在个性化联邦学习任务中,性能优于现有的个性化联邦学习方法。
📝 摘要(中文)
随着大型语言模型(LLMs)不断突破AI能力边界,其对数据的需求也日益增长。这些数据大多是私有的且分布在边缘设备上,这使得联邦学习(FL)成为微调的实际替代方案(即FedLLM)。然而,由于客户端之间固有的异构性,包括不同的数据分布和多样化的任务类型,它面临着严峻的挑战。为了实现通用的FedLLM,我们用稀疏激活的专家混合(MoE)架构取代了传统的密集模型,其并行的前馈网络能够提供更大的灵活性。为了使其在资源受限的环境中更实用,我们提出了FedMoE,这是一种高效的个性化FL框架,用于解决数据异构性问题,为每个客户端构建一个最优的子MoE,并将知识带回全局MoE。FedMoE由两个微调阶段组成。在第一阶段,FedMoE通过基于观察到的激活模式进行启发式搜索来简化问题,从而为每个客户端识别一个次优的子模型。在第二阶段,这些子模型被分发给客户端进行进一步训练,并通过一种新颖的模块化聚合策略返回以进行服务器聚合。同时,FedMoE通过全局专家推荐逐步将子模型调整到最优。实验结果表明,我们的方法优于以往的个性化FL方法。
🔬 方法详解
问题定义:论文旨在解决联邦学习场景下,由于客户端数据分布和任务类型的异构性,导致全局模型难以适应所有客户端的问题。现有方法通常采用全局共享模型或完全个性化模型,前者忽略了客户端的差异性,后者则可能导致过拟合和泛化能力下降。
核心思路:论文的核心思路是利用MoE架构的灵活性,为每个客户端构建一个最优的子MoE模型,从而实现个性化联邦学习。通过两阶段的微调过程,首先快速搜索次优子模型,然后通过联邦学习进一步优化,最终将知识融合回全局MoE模型。
技术框架:FedMoE框架包含两个主要阶段:1) 子模型搜索阶段:服务器端基于客户端的激活模式,通过启发式搜索为每个客户端确定一个次优的子MoE模型。2) 联邦学习阶段:服务器将子模型分发给客户端进行本地训练,然后通过模块化聚合策略将客户端的更新聚合回全局MoE模型。同时,服务器通过全局专家推荐机制,逐步调整子模型,使其达到最优。
关键创新:FedMoE的关键创新在于:1) 采用MoE架构实现个性化建模,提高了模型的灵活性和表达能力。2) 提出了两阶段的微调策略,兼顾了效率和性能。3) 设计了模块化聚合策略和全局专家推荐机制,实现了知识的有效共享和个性化调整。
关键设计:在子模型搜索阶段,论文采用启发式算法,基于客户端的激活模式选择激活频率最高的专家。在联邦学习阶段,论文使用模块化聚合策略,只聚合子模型中包含的专家参数,避免了全局模型的过度更新。全局专家推荐机制则根据客户端的性能反馈,动态调整子模型的专家组合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FedMoE在个性化联邦学习任务中,显著优于现有的个性化联邦学习方法。具体性能提升数据未知,但摘要明确指出FedMoE优于之前的个性化联邦学习方法。
🎯 应用场景
FedMoE可应用于各种需要个性化联邦学习的场景,例如:移动设备上的语言模型微调、医疗诊断中的患者数据分析、金融风控中的用户行为建模等。该研究有助于在保护用户隐私的前提下,利用分布式数据训练更精准、更个性化的AI模型,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
As Large Language Models (LLMs) push the boundaries of AI capabilities, their demand for data is growing. Much of this data is private and distributed across edge devices, making Federated Learning (FL) a de-facto alternative for fine-tuning (i.e., FedLLM). However, it faces significant challenges due to the inherent heterogeneity among clients, including varying data distributions and diverse task types. Towards a versatile FedLLM, we replace traditional dense model with a sparsely-activated Mixture-of-Experts (MoE) architecture, whose parallel feed-forward networks enable greater flexibility. To make it more practical in resource-constrained environments, we present FedMoE, the efficient personalized FL framework to address data heterogeneity, constructing an optimal sub-MoE for each client and bringing the knowledge back to global MoE. FedMoE is composed of two fine-tuning stages. In the first stage, FedMoE simplifies the problem by conducting a heuristic search based on observed activation patterns, which identifies a suboptimal submodel for each client. In the second stage, these submodels are distributed to clients for further training and returned for server aggregating through a novel modular aggregation strategy. Meanwhile, FedMoE progressively adjusts the submodels to optimal through global expert recommendation. Experimental results demonstrate the superiority of our method over previous personalized FL methods.