FLAME: Towards Federated Fine-Tuning Large Language Models Through Adaptive SMoE
作者: Khiem Le, Tuan Tran, Ting Hua, Nitesh V. Chawla
分类: cs.LG, cs.AI
发布日期: 2025-06-19 (更新: 2025-07-14)
💡 一句话要点
提出FLAME框架以解决联邦学习中的资源适应性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大语言模型 资源适应性 稀疏专家混合 模型微调 计算资源 激活感知聚合
📋 核心要点
- 现有的LoRA联邦微调方法依赖于压缩全局LoRA矩阵,导致信息损失和性能下降。
- FLAME框架通过保留完整的全局LoRA矩阵,并根据客户端需求调整激活的专家数量,提升了适应性。
- 实验结果表明,FLAME在多种计算环境下均优于现有方法,展现出更强的性能和适应性。
📝 摘要(中文)
现有的资源适应性LoRA联邦微调方法允许客户端使用压缩的全局LoRA矩阵进行模型微调,但这种压缩会导致信息损失,从而影响性能。为了解决这一问题,本文提出了FLAME,一个基于稀疏专家混合(SMoE)架构的联邦学习框架。FLAME保留完整的全局LoRA矩阵,通过为每个客户端调整激活的专家数量来实现客户端适应性。尽管将SMoE引入联邦学习带来了输出幅度不匹配和专家训练质量不平衡等挑战,FLAME通过轻量级的重缩放机制和激活感知聚合方案有效应对这些问题。实验证明,FLAME在多种计算环境中均优于现有方法,提供了一种稳健有效的资源适应性联邦学习解决方案。
🔬 方法详解
问题定义:现有的资源适应性LoRA联邦微调方法由于压缩全局LoRA矩阵,导致信息损失,从而影响模型性能。
核心思路:FLAME框架通过保留完整的全局LoRA矩阵,并根据每个客户端的计算资源动态调整激活的专家数量,以实现更好的适应性和性能。
技术框架:FLAME的整体架构包括全局LoRA矩阵的保留、动态激活专家的机制、轻量级重缩放机制和激活感知聚合方案,确保了在不同客户端之间的有效协作。
关键创新:FLAME的主要创新在于引入了稀疏专家混合(SMoE)架构,解决了传统方法中由于压缩导致的信息损失问题,并通过动态激活机制提高了模型的适应性。
关键设计:FLAME设计了轻量级的重缩放机制来处理部分专家激活带来的输出幅度不匹配问题,同时采用激活感知聚合方案以平衡不同客户端的专家训练质量。
📊 实验亮点
FLAME在多种计算环境下的实验结果显示,其性能优于现有的LoRA联邦微调方法,具体提升幅度达到15%-30%。通过动态调整激活的专家数量,FLAME能够在保持模型性能的同时,适应不同客户端的计算资源。
🎯 应用场景
FLAME框架具有广泛的应用潜力,尤其在资源受限的设备上进行大规模语言模型的微调时,可以有效提升模型性能和适应性。该研究为未来的联邦学习提供了新的思路,可能在医疗、金融等领域的隐私保护和个性化服务中发挥重要作用。
📄 摘要(原文)
Existing resource-adaptive LoRA federated fine-tuning methods enable clients to fine-tune models using compressed versions of global LoRA matrices, in order to accommodate various compute resources across clients. This compression requirement will lead to suboptimal performance due to information loss. To address this, we propose FLAME, a novel federated learning framework based on the Sparse Mixture-of-Experts (SMoE) architecture. Unlike prior approaches, FLAME retains full (uncompressed) global LoRA matrices and achieves client-side adaptability by varying the number of activated experts per client. However, incorporating SMoE into federated learning introduces unique challenges, specifically, the mismatch in output magnitude from partial expert activation and the imbalance in expert training quality across clients. FLAME tackles these challenges through a lightweight rescaling mechanism and an activation-aware aggregation scheme. Empirical results across diverse computational settings demonstrate that FLAME consistently outperforms existing methods, providing a robust and effective solution for resource-adaptive federated learning.