Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models
作者: Ji Liu, Jiaxiang Ren, Ruoming Jin, Zijie Zhang, Yang Zhou, Patrick Valduriez, Dejing Dou
分类: cs.LG, cs.AI, cs.CL, cs.DC
发布日期: 2024-09-30 (更新: 2024-10-18)
备注: 27 pages, 8 figures, 14 tables, to appear in EMNLP 2024
💡 一句话要点
提出FibecFed框架,利用Fisher信息高效地对大语言模型进行联邦学习微调。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大型语言模型 Fisher信息 课程学习 参数稀疏化 低秩适应 模型微调
📋 核心要点
- 联邦学习微调大型语言模型面临数据非独立同分布和模型规模巨大带来的计算与通信成本挑战。
- FibecFed框架通过Fisher信息自适应采样数据,并动态选择层和稀疏参数进行更新,提升效率。
- 实验结果表明,FibecFed在准确率上提升高达45.35%,微调速度提升高达98.61%。
📝 摘要(中文)
本文提出了一种基于Fisher信息的有效课程联邦学习框架(FibecFed),用于微调大型语言模型(LLM)。针对LLM参数规模巨大和训练数据量显著增加导致的高计算和通信成本问题,以及训练数据通常为非独立同分布(non-IID)的挑战,FibecFed包含两种新颖的方法:自适应联邦课程学习和高效稀疏参数更新。首先,提出了一种基于Fisher信息的方法,自适应地对每个设备内的数据进行采样,以提高FL微调过程的有效性。其次,动态选择合适的层进行全局聚合,并选择LoRA的稀疏参数进行本地更新,从而提高FL微调过程的效率。基于10个数据集的大量实验结果表明,与17种基线方法相比,FibecFed具有出色的性能(准确率高达45.35%)和极快的微调速度(速度提高高达98.61%)。
🔬 方法详解
问题定义:论文旨在解决联邦学习场景下,对大型语言模型进行微调时面临的效率和性能问题。现有方法,如直接使用LoRA进行联邦学习,虽然减少了参数量,但仍然需要传输所有层的低秩参数,通信成本高昂。同时,数据非独立同分布导致模型收敛速度慢,精度不高。
核心思路:论文的核心思路是利用Fisher信息来指导联邦学习过程中的数据选择和参数更新。通过Fisher信息评估数据的重要性,自适应地选择更有价值的数据进行训练。同时,动态选择对模型性能影响更大的层进行全局聚合,并对LoRA的参数进行稀疏更新,从而减少通信量和计算量。
技术框架:FibecFed框架包含两个主要模块:自适应联邦课程学习和高效稀疏参数更新。自适应联邦课程学习模块利用Fisher信息对本地数据进行采样,选择信息量更大的数据参与训练。高效稀疏参数更新模块动态选择参与全局聚合的层,并对LoRA参数进行稀疏化处理,减少通信和计算开销。整体流程为:客户端本地使用Fisher信息采样数据,进行LoRA微调,然后选择部分层和稀疏参数进行上传,服务器进行聚合,最后将更新后的参数发送回客户端。
关键创新:论文的关键创新在于将Fisher信息引入联邦学习,用于指导数据采样和参数更新。传统的联邦学习方法通常采用均匀采样或简单的启发式方法,无法充分利用数据的价值。通过Fisher信息,可以更准确地评估数据对模型性能的影响,从而选择更有价值的数据进行训练。此外,动态选择层和稀疏参数进行更新,进一步提高了效率。
关键设计:Fisher信息的计算方式未知,论文中可能使用了近似计算方法。动态选择层的策略可能基于层对模型性能的贡献度,贡献度高的层优先选择。稀疏参数更新可能采用剪枝或正则化的方法,减少参数量。损失函数可能包含交叉熵损失和正则化项,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
FibecFed在10个数据集上进行了广泛的实验,结果表明,与17种基线方法相比,FibecFed在准确率上提升高达45.35%,微调速度提升高达98.61%。这些结果表明,FibecFed在联邦学习微调大型语言模型方面具有显著的优势。
🎯 应用场景
该研究成果可应用于各种需要联邦学习微调大型语言模型的场景,例如:金融风控、医疗诊断、智能客服等。在这些场景中,数据分散在不同的机构或设备上,无法直接进行集中训练。FibecFed框架可以在保护数据隐私的前提下,高效地利用这些数据进行模型微调,提升模型性能,具有重要的实际应用价值。
📄 摘要(原文)
As a promising paradigm to collaboratively train models with decentralized data, Federated Learning (FL) can be exploited to fine-tune Large Language Models (LLMs). While LLMs correspond to huge size, the scale of the training data significantly increases, which leads to tremendous amounts of computation and communication costs. The training data is generally non-Independent and Identically Distributed (non-IID), which requires adaptive data processing within each device. Although Low Rank Adaptation (LoRA) can significantly reduce the scale of parameters to update in the fine-tuning process, it still takes unaffordable time to transfer the low-rank parameters of all the layers in LLMs. In this paper, we propose a Fisher Information-based Efficient Curriculum Federated Learning framework (FibecFed) with two novel methods, i.e., adaptive federated curriculum learning and efficient sparse parameter update. First, we propose a fisher information-based method to adaptively sample data within each device to improve the effectiveness of the FL fine-tuning process. Second, we dynamically select the proper layers for global aggregation and sparse parameters for local update with LoRA so as to improve the efficiency of the FL fine-tuning process. Extensive experimental results based on 10 datasets demonstrate that FibecFed yields excellent performance (up to 45.35% in terms of accuracy) and superb fine-tuning speed (up to 98.61% faster) compared with 17 baseline approaches).