Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

📄 arXiv: 2603.08058v1 📥 PDF

作者: Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao

分类: cs.LG

发布日期: 2026-03-09


💡 一句话要点

提出SFed-LoRA,通过自适应缩放因子解决联邦学习中LoRA微调的不稳定性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 低秩适应 参数高效微调 大型语言模型 梯度稳定

📋 核心要点

  1. 联邦学习中LoRA微调存在不稳定性,高秩适配器易受客户端数量影响,导致梯度崩溃。
  2. SFed-LoRA通过理论分析适配器秩与联邦聚合的相互作用,推导出最优缩放因子。
  3. 实验表明,SFed-LoRA能有效防止高秩崩溃,提升稳定性和收敛速度,优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言处理中至关重要。由于全量微调的不切实际,参数高效微调(PEFT)方法,如低秩适应(LoRA)应运而生,它优化低秩矩阵A和B。然而,在隐私约束需要联邦学习(FL)的分布式场景中,LoRA的集成通常不稳定。具体来说,我们发现来自多个客户端的更新聚合引入了随客户端数量增加的统计方差,导致使用高秩适配器时出现梯度崩溃。现有的缩放因子候选者,例如Rank-Stabilized LoRA中使用的缩放因子,忽略了聚合过程引起的相互作用。为了弥合这一差距,本文提出了稳定联邦LoRA(SFed-LoRA),该框架在理论上描述了适配器秩和联邦聚合之间的相互作用。我们推导出一个最佳缩放因子,旨在有效缓解跨N个客户端累积的聚合误差。通过纠正先前方法中固有的缩放不匹配,SFed-LoRA恢复了高秩适应的有效性,而无需改变原始模型架构或增加推理延迟。在不同的任务、模型架构和异构数据分布中进行了广泛的实验,以验证我们的结果。我们证明了SFed-LoRA可以防止高秩崩溃,并且与最先进的高秩适应基线相比,实现了显着提高的稳定性和更快的收敛。

🔬 方法详解

问题定义:在联邦学习场景下,直接应用LoRA进行微调时,由于客户端数量的增加,聚合多个客户端的更新会引入统计方差,导致高秩适配器出现梯度崩溃,模型训练不稳定。现有方法,如Rank-Stabilized LoRA,其缩放因子设计忽略了联邦聚合过程带来的影响,无法有效解决该问题。

核心思路:SFed-LoRA的核心思路是通过理论分析,精确建模适配器秩和联邦聚合之间的相互作用,从而推导出最优的缩放因子。该缩放因子能够有效缓解因客户端数量增加而累积的聚合误差,稳定高秩适配器的训练过程。

技术框架:SFed-LoRA框架主要包含以下几个步骤:1) 在每个客户端上使用LoRA进行局部训练;2) 将客户端的LoRA更新发送到服务器;3) 服务器根据推导出的最优缩放因子对接收到的更新进行聚合;4) 将聚合后的更新应用到全局模型。整个过程保持了联邦学习的隐私保护特性,同时稳定了LoRA的训练。

关键创新:SFed-LoRA的关键创新在于其最优缩放因子的推导。该缩放因子不仅考虑了LoRA的秩,还考虑了联邦聚合过程中客户端数量的影响,从而能够更准确地控制梯度更新的幅度,防止梯度崩溃。与现有方法相比,SFed-LoRA的缩放因子是自适应的,能够根据客户端数量和适配器秩进行调整。

关键设计:SFed-LoRA的关键设计在于最优缩放因子的具体形式。论文通过理论推导,得到了一个与客户端数量N和适配器秩相关的缩放因子。该缩放因子被应用于LoRA更新的聚合过程中,以减小聚合误差。具体的数学表达式在论文中有详细描述,需要参考原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SFed-LoRA在高秩适配器下显著优于现有基线方法。在不同的任务、模型架构和异构数据分布下,SFed-LoRA都表现出更高的稳定性和更快的收敛速度。具体而言,SFed-LoRA能够有效防止高秩崩溃,并取得比Rank-Stabilized LoRA等方法更好的性能。

🎯 应用场景

SFed-LoRA可应用于各种需要联邦学习和参数高效微调的场景,例如:跨设备语言建模、个性化推荐系统、医疗影像分析等。它能够提升联邦学习中LLM微调的稳定性和效率,降低训练成本,并保护用户隐私,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) are pivotal in natural language processing. The impracticality of full fine-tuning has prompted Parameter-Efficient Fine-Tuning (PEFT) methods like Low-Rank Adaptation (LoRA), optimizing low-rank matrices A and B. In distributed scenarios where privacy constraints necessitate Federated Learning (FL), however, the integration of LoRA is often unstable. Specifically, we identify that aggregating updates from multiple clients introduces statistical variance that scales with the client count, causing gradient collapse when using high-rank adapters. Existing scaling factor candidates, such as the one used by Rank-Stabilized LoRA, ignore the interaction caused by the aggregation process. To bridge this gap, this paper introduces Stabilized Federated LoRA (SFed-LoRA), a framework that theoretically characterizes the interaction between adapter rank and federated aggregation. We derive an optimal scaling factor designed to effectively mitigate the aggregation error accumulating across N clients. By correcting the scaling mismatch inherent in previous approaches, SFed-LoRA restores the efficacy of high-rank adaptation without altering the original model architecture or increasing inference latency. Extensive experiments in diverse tasks, model architectures, and heterogeneous data distributions are conducted to validate our results. We demonstrate that SFed-LoRA prevents high-rank collapse, and achieves significantly improved stability and faster convergence compared with state-of-the-art baselines for high-rank adaptation.