Efficient Split Federated Learning for Large Language Models over Communication Networks
作者: Kai Zhao, Zhaohui Yang, Ye Hu, Mingzhe Chen, Chen Zhu, Zhaoyang Zhang
分类: cs.LG, cs.NI
发布日期: 2025-04-20 (更新: 2025-07-02)
💡 一句话要点
提出SflLLM框架,通过拆分联邦学习和LoRA高效微调边缘端大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大语言模型 边缘计算 模型拆分 低秩适应 资源分配 通信优化
📋 核心要点
- 现有方法难以在资源受限的边缘网络上高效地分布式微调大语言模型。
- SflLLM框架结合模型拆分、联邦学习和LoRA,降低边缘设备计算负担,提升数据隐私。
- 实验结果表明,SflLLM在保证模型精度的同时,显著降低了客户端计算需求和训练延迟。
📝 摘要(中文)
本文提出SflLLM框架,旨在解决资源受限的边缘网络上分布式微调预训练大语言模型(LLM)的挑战。SflLLM集成了拆分联邦学习与参数高效微调技术,利用模型拆分和低秩适应(LoRA)来降低边缘设备的计算负担。此外,引入联邦服务器以促进并行训练并增强数据隐私。考虑到异构通信条件和边缘设备不同的计算能力,以及LoRA秩选择对模型收敛和训练成本的影响,本文构建了一个通信和计算资源联合优化问题,旨在最小化总训练延迟。提出了一种迭代优化算法来高效地解决该问题。具体而言,采用贪婪启发式算法进行子信道分配,使用辅助变量将功率控制子问题重新表述为凸优化问题,并采用穷举搜索来寻找最优拆分位置和秩选择。仿真结果表明,所提出的SflLLM框架在实现可比模型精度的同时,显著降低了客户端的计算需求。此外,与传统方法相比,所提出的资源分配方案和自适应LoRA秩选择策略显著降低了训练延迟。
🔬 方法详解
问题定义:论文旨在解决在通信网络中,边缘设备资源受限的情况下,如何高效地对大型语言模型进行分布式微调的问题。现有方法在边缘设备上直接进行全参数微调计算量大,对通信带宽要求高,且容易暴露用户隐私。
核心思路:论文的核心思路是结合拆分联邦学习(Split Federated Learning)和低秩自适应(LoRA)技术。通过模型拆分,将计算量大的部分放在服务器端,降低边缘设备的计算负担;利用LoRA技术,只微调少量参数,进一步降低计算和通信开销;同时,利用联邦学习保护用户数据隐私。
技术框架:SflLLM框架包含边缘设备和联邦服务器。边缘设备首先根据拆分点将模型拆分为两部分,一部分在本地进行前向计算,另一部分发送到服务器。服务器端完成剩余的前向计算和反向传播,并将梯度发送回边缘设备。边缘设备根据接收到的梯度更新本地模型参数。联邦服务器还负责协调边缘设备的训练,进行资源分配和LoRA秩选择。
关键创新:论文的关键创新在于联合优化通信和计算资源,包括子信道分配、功率控制、模型拆分点选择和LoRA秩配置,以最小化总训练延迟。此外,自适应的LoRA秩选择策略能够根据边缘设备的计算能力和通信条件动态调整LoRA的秩,从而在模型精度和训练成本之间取得平衡。
关键设计:论文采用贪婪启发式算法进行子信道分配,将功率控制子问题转化为凸优化问题,并采用穷举搜索来寻找最优拆分位置和LoRA秩。具体而言,功率控制子问题通过引入辅助变量,并利用拉格朗日对偶方法进行求解。LoRA的秩的选择范围是预先设定的,通过穷举搜索找到最优的秩。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,SflLLM框架在实现与全参数微调相当的模型精度的同时,显著降低了客户端的计算需求。与传统方法相比,所提出的资源分配方案和自适应LoRA秩选择策略显著降低了训练延迟。具体数据未知,但强调了在保证模型精度前提下,计算需求和训练延迟的显著降低。
🎯 应用场景
SflLLM框架可应用于各种需要分布式微调大语言模型的场景,例如智能家居、自动驾驶、医疗诊断等。该框架能够在保护用户隐私的前提下,利用边缘设备的计算资源,高效地微调大语言模型,提升模型在特定任务上的性能。未来,该研究可以进一步扩展到更复杂的网络拓扑和异构设备环境。
📄 摘要(原文)
Fine-tuning pre-trained large language models (LLMs) in a distributed manner poses significant challenges on resource-constrained edge networks. To address this challenge, we propose SflLLM, a novel framework that integrates split federated learning with parameter-efficient fine-tuning techniques. By leveraging model splitting and low-rank adaptation (LoRA), SflLLM reduces the computational burden on edge devices. Furthermore, the introduction of a federated server facilitates parallel training and enhances data privacy. To accommodate heterogeneous communication conditions and diverse computational capabilities of edge devices, as well as the impact of LoRA rank selection on model convergence and training cost, we formulate a joint optimization problem of both communication and computation resource. The formulated problem jointly optimizes subchannel allocation, power control, model splitting point selection, and LoRA rank configuration, aimed at minimizing total training delay. An iterative optimization algorithm is proposed to solve this problem efficiently. Specifically, a greedy heuristic is employed for subchannel allocation, the power control subproblem is reformulated as a convex optimization problem using auxiliary variables, and an exhaustive search is adopted for optimal split position and rank selection. Simulation results demonstrate that the proposed SflLLM framework achieves comparable model accuracy while significantly reducing client-side computational requirements. Furthermore, the proposed resource allocation scheme and adaptive LoRA rank selection strategy notably reduce the training latency compared to conventional approaches.