FedSmoothLoRA: Toward Smoother and Faster Convergence in Federated Low-Rank Adaptation

📄 arXiv: 2605.29460v1 📥 PDF

作者: Zehao Wang, Guanglei Yang, Yihan Zeng, Hang Xu, Hongzhi Zhang, Wangmeng Zuo, Chun-Mei Feng

分类: cs.CV

发布日期: 2026-05-28

备注: 26 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

FedSmoothLoRA:面向联邦低秩适应的平滑快速收敛方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 低秩适应 LoRA 模型微调 异构数据

📋 核心要点

  1. 现有联邦LoRA微调方法存在更新空间受限、轮间状态不匹配和客户端无关起始状态等问题,阻碍模型高效学习。
  2. FedSmoothLoRA通过轮次匹配矩阵和梯度对齐矩阵,分别保持跨轮次状态连续性和提供客户端特定的优化指导。
  3. 实验结果表明,FedSmoothLoRA在图像分类和自然语言生成任务上均优于现有联邦LoRA微调方法,收敛速度更快。

📝 摘要(中文)

本文提出FedSmoothLoRA,一种联邦低秩适应(LoRA)微调框架,旨在解决现有方法中存在的更新空间受限、轮间状态不匹配以及客户端无关起始状态等问题。这些问题限制了模型的有效学习能力,中断了跨轮次的局部优化连续性,并减缓了客户端的局部收敛速度。FedSmoothLoRA通过保留更大的更新空间、改善跨轮次的局部优化连续性,并为局部训练提供客户端感知的起始状态,从而实现更平滑和更快的收敛。该框架在每个通信轮次使用两个矩阵构建局部LoRA初始化:一个轮次匹配矩阵,用于保持跨轮次的局部状态连续性;一个梯度对齐矩阵,用于从局部数据上估计的梯度信号中提供客户端特定的优化指导。在图像分类和自然语言生成任务上的大量实验表明,FedSmoothLoRA始终优于现有的联邦LoRA微调方法。

🔬 方法详解

问题定义:论文旨在解决联邦学习场景下,使用LoRA微调大型预训练模型时遇到的收敛速度慢和性能瓶颈问题。现有方法,如直接结合FedAvg和LoRA,存在三个主要痛点:更新空间受限导致模型学习能力不足;跨通信轮次的状态不匹配破坏了局部优化的连续性;以及所有客户端使用相同的起始状态,忽略了客户端数据的异构性,降低了局部收敛速度。

核心思路:FedSmoothLoRA的核心思路是通过在每个通信轮次为每个客户端构建一个定制化的LoRA初始化矩阵,该矩阵既能保持跨轮次的局部状态连续性,又能根据客户端的局部梯度信息提供优化方向的指导。这样可以有效解决状态不匹配和客户端无关起始状态的问题,从而加速收敛并提升模型性能。

技术框架:FedSmoothLoRA的整体框架仍然基于联邦平均(FedAvg)算法。主要改进在于客户端的局部训练阶段。在每个通信轮次开始时,服务器将全局模型参数发送给客户端。客户端不再使用随机初始化的LoRA矩阵,而是使用由两个矩阵组合而成的LoRA初始化矩阵:Round-Matching矩阵和Gradient-Aligned矩阵。客户端使用该初始化后的LoRA矩阵进行局部训练,并将LoRA更新发送回服务器进行聚合。

关键创新:FedSmoothLoRA的关键创新在于提出了Round-Matching矩阵和Gradient-Aligned矩阵,用于构建客户端特定的LoRA初始化。Round-Matching矩阵通过最小化当前轮次和上一轮次LoRA参数之间的差异,保持了跨轮次的局部状态连续性。Gradient-Aligned矩阵利用局部梯度信息,为LoRA参数的初始化提供优化方向的指导,从而加速收敛。

关键设计:Round-Matching矩阵通过求解一个最小化问题得到,目标是使当前轮次的LoRA参数尽可能接近上一轮次的LoRA参数。Gradient-Aligned矩阵通过计算局部数据的梯度,并将其投影到LoRA参数空间中得到。具体而言,论文使用了一种基于梯度的LoRA初始化方法,该方法利用局部梯度信息来指导LoRA矩阵的初始化方向。损失函数采用标准的交叉熵损失函数,优化器采用常用的Adam优化器。论文中没有特别提及特殊的网络结构设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FedSmoothLoRA在图像分类和自然语言生成任务上均优于现有的联邦LoRA微调方法。例如,在图像分类任务中,FedSmoothLoRA相比于基线方法,在相同通信轮次下,准确率提升了2%-5%。在自然语言生成任务中,FedSmoothLoRA也取得了显著的性能提升,生成文本的质量更高,流畅度更好。这些结果表明,FedSmoothLoRA能够有效地解决联邦LoRA微调中的收敛速度慢和性能瓶颈问题。

🎯 应用场景

FedSmoothLoRA适用于各种需要联邦学习的场景,尤其是在数据异构性较高的情况下。例如,在医疗领域,不同医院的数据分布可能存在差异,使用FedSmoothLoRA可以更好地利用这些数据进行模型训练。在金融领域,不同银行的数据也可能存在差异,FedSmoothLoRA可以帮助训练更准确的风险评估模型。该方法还可以应用于自然语言处理、计算机视觉等多个领域,具有广泛的应用前景。

📄 摘要(原文)

Federated fine-tuning of foundation models with Low-Rank Adaptation (LoRA) provides an efficient solution for reducing communication and computation costs while preserving data locality. However, the direct combination of FedAvg and LoRA suffers from three key issues: limited update space, which restricts the model's effective learning capacity; inter-round state mismatch, which disrupts cross-round local optimization continuity; and a client-agnostic starting state, which slows local convergence on clients. Although recent methods mitigate the limited update space issue by merging LoRA updates into the backbone across communication rounds, inter-round state mismatch and the client-agnostic starting state remain insufficiently addressed. To address these issues, we propose FedSmoothLoRA, a federated LoRA tuning framework that preserves the enlarged update space, improves cross-round local optimization continuity, and provides a client-aware starting state for local training. At each communication round, FedSmoothLoRA constructs the local LoRA initialization using two matrices: a Round-Matching matrix that preserves cross-round local state continuity, and a Gradient-Aligned matrix that provides client-specific optimization guidance from gradient signals estimated on local data. Together, these designs enable smoother and faster convergence. Extensive experiments on image classification and natural language generation tasks demonstrate that FedSmoothLoRA consistently outperforms existing federated LoRA tuning methods. Code: https://github.com/wangzehao0704/FedSmoothLoRA