FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

📄 arXiv: 2603.08014v1 📥 PDF

作者: Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan

分类: cs.LG, cs.AI

发布日期: 2026-03-09


💡 一句话要点

FedMomentum:联邦微调中保留LoRA训练动量的框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 低秩适应 LoRA 奇异值分解 训练动量 大型语言模型 参数高效微调

📋 核心要点

  1. 现有联邦LoRA微调方法在聚合时引入噪声或损失结构信息,导致训练动量丢失,收敛缓慢。
  2. FedMomentum通过SVD分解LoRA更新,提取主导分量进行重构,保留训练动量和结构表达性。
  3. 实验表明,FedMomentum在多个任务上显著提升了收敛速度和最终精度,优于现有方法。

📝 摘要(中文)

本文提出了一种在联邦微调大型语言模型(LLM)时,利用低秩适应(LoRA)实现通信高效和保护隐私的解决方案。直接聚合LoRA模块会引入噪声,因为独立平均降采样和升采样矩阵在数学上是不正确的。现有的无噪声聚合策略不可避免地会损害LoRA的结构表达性,限制其保留客户端特定适应的能力,要么不正确地重构低秩结构,要么排除部分可训练组件。作者将此问题定义为训练动量的损失,即LoRA更新无法在多轮训练中有效累积,导致收敛速度变慢和性能欠佳。为了解决这个问题,作者提出了FedMomentum,这是一个新颖的框架,通过奇异值分解(SVD)实现结构化和保留动量的LoRA聚合。具体来说,在以数学上正确的方式聚合低秩更新后,FedMomentum应用SVD来提取捕获主要更新方向的主导分量。这些分量用于重建具有相同秩的LoRA模块,而残余分量可以被保留并稍后合并到主干中,以保留语义信息并确保鲁棒性。在多个任务上的大量实验表明,FedMomentum在收敛速度和最终精度方面始终优于先前的最先进方法。

🔬 方法详解

问题定义:联邦微调大型语言模型时,使用LoRA进行参数高效微调是一种常见方法。然而,直接平均LoRA模块的权重(特别是降采样和升采样矩阵)在数学上是不正确的,会导致噪声。现有的无噪声聚合方法,如直接平均更新后的完整LoRA矩阵,又会损失LoRA的结构信息,限制了模型对客户端特定信息的保留能力。这导致训练动量丢失,收敛速度慢,最终性能不佳。

核心思路:FedMomentum的核心思路是通过奇异值分解(SVD)来提取LoRA更新中的主导成分,这些成分代表了主要的训练方向和动量。通过保留这些主导成分,并在聚合后使用它们来重建LoRA模块,可以有效地保留训练动量,同时避免直接平均带来的噪声和结构信息的损失。

技术框架:FedMomentum的整体框架如下:1) 每个客户端在本地使用LoRA进行模型微调。2) 服务器收集客户端的LoRA更新。3) 服务器以数学上正确的方式聚合LoRA更新(例如,对更新后的LoRA矩阵进行加权平均)。4) 服务器对聚合后的LoRA矩阵进行SVD分解。5) 服务器选择前k个奇异值和对应的奇异向量,这些代表了主要的更新方向。6) 服务器使用这些主导成分重建LoRA模块。7) 服务器将重建后的LoRA模块发送回客户端,或直接用于全局模型的更新。

关键创新:FedMomentum的关键创新在于使用SVD来提取和保留LoRA更新中的训练动量。与直接平均或简单地聚合LoRA矩阵不同,FedMomentum能够识别并保留最重要的更新方向,从而避免了噪声的引入和结构信息的损失。此外,保留的残余分量可以合并到主干网络中,进一步提升模型的鲁棒性。

关键设计:关键设计包括:1) 使用SVD分解聚合后的LoRA更新矩阵。2) 选择前k个奇异值和奇异向量,k的选择需要根据具体任务和数据集进行调整。3) 使用选择的奇异值和奇异向量重建LoRA模块。4) 可选地,将残余分量合并到主干网络中。损失函数仍然是标准的语言模型损失函数,例如交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FedMomentum在多个NLP任务上显著优于现有的联邦LoRA微调方法。例如,在文本分类任务上,FedMomentum相比于基线方法提升了2-5%的准确率,并且收敛速度更快。此外,消融实验验证了SVD分解和主导成分选择的有效性。

🎯 应用场景

FedMomentum适用于各种需要联邦学习和参数高效微调的场景,例如:跨设备个性化语言模型、医疗领域的隐私保护模型训练、金融领域的风险控制模型等。该方法能够提升联邦学习的效率和性能,同时保护用户数据的隐私,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Federated fine-tuning of large language models (LLMs) with low-rank adaptation (LoRA) offers a communication-efficient and privacy-preserving solution for task-specific adaptation. Naive aggregation of LoRA modules introduces noise due to mathematical incorrectness when averaging the downsampling and upsampling matrices independently. However, existing noise-free aggregation strategies inevitably compromise the structural expressiveness of LoRA, limiting its ability to retain client-specific adaptations by either improperly reconstructing the low-rank structure or excluding partially trainable components. We identify this problem as loss of training momentum, where LoRA updates fail to accumulate effectively across rounds, resulting in slower convergence and suboptimal performance. To address this, we propose FedMomentum, a novel framework that enables structured and momentum-preserving LoRA aggregation via singular value decomposition (SVD). Specifically, after aggregating low-rank updates in a mathematically correct manner, FedMomentum applies SVD to extract the dominant components that capture the main update directions. These components are used to reconstruct the LoRA modules with the same rank, while residual components can be retained and later merged into the backbone to preserve semantic information and ensure robustness. Extensive experiments across multiple tasks demonstrate that FedMomentum consistently outperforms prior state-of-the-art methods in convergence speed and final accuracy.