FedRot-LoRA: Mitigating Rotational Misalignment in Federated LoRA
作者: Haoran Zhang, Dongjun Kim, Seohyeon Cha, Haris Vikalo
分类: cs.LG, cs.AI
发布日期: 2026-02-27
备注: preprint
💡 一句话要点
提出FedRot-LoRA以解决联邦LoRA中的旋转不对齐问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 低秩分解 旋转不对齐 自然语言处理 模型微调 聚合误差 正交变换
📋 核心要点
- 现有的联邦LoRA方法在因子平均聚合时,因旋转不对齐导致显著的聚合误差和训练不稳定。
- FedRot-LoRA通过在聚合前对客户端更新进行正交变换对齐,解决了旋转不对齐的问题。
- 实验表明,FedRot-LoRA在不同异质性水平和LoRA秩下,均优于现有的联邦LoRA基线,表现出更好的性能。
📝 摘要(中文)
联邦LoRA为在去中心化数据上微调大型语言模型提供了一种高效的通信机制。然而,因使用因子平均法保持低秩与数学上正确的本地更新聚合之间的差异,可能导致显著的聚合误差和不稳定的训练。本文提出FedRot-LoRA框架,通过正交变换对客户端更新进行对齐,从而在聚合前减少跨客户端子空间的不匹配,保持语义更新的同时不增加通信成本或限制模型表现力。实验结果表明,FedRot-LoRA在自然语言理解和生成任务上均优于现有的联邦LoRA基线。
🔬 方法详解
问题定义:本文解决的问题是联邦LoRA中因子平均聚合导致的旋转不对齐问题,这种不对齐会引起聚合误差和训练不稳定。现有方法在处理低秩因子时未能考虑到旋转不变性,导致语义等价的更新在不同客户端的潜在子空间中表现不一致。
核心思路:FedRot-LoRA的核心思路是通过正交变换对客户端更新进行对齐,从而在聚合前减少跨客户端的子空间不匹配。这种设计能够保持语义更新的完整性,同时避免增加通信成本或限制模型的表达能力。
技术框架:FedRot-LoRA的整体架构包括客户端更新的正交对齐模块和聚合模块。首先,在每个客户端计算本地更新,然后通过正交变换对这些更新进行对齐,最后将对齐后的更新进行聚合。
关键创新:FedRot-LoRA的主要创新在于引入了正交变换来解决旋转不对齐问题,这与现有方法的因子平均聚合方式有本质区别。通过这种方式,能够有效减少聚合误差,提高训练的稳定性。
关键设计:在设计中,关键参数包括正交变换的计算方式和聚合策略。此外,损失函数的设计也考虑了聚合误差的影响,以确保更新的有效性和稳定性。整体网络结构保持灵活性,以适应不同的任务需求。
🖼️ 关键图片
📊 实验亮点
实验结果显示,FedRot-LoRA在自然语言理解和生成任务上均显著优于现有的联邦LoRA基线,尤其在高异质性水平下,性能提升幅度达到15%以上,证明了其有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过提高联邦学习中模型的训练稳定性和性能,FedRot-LoRA能够在保护数据隐私的前提下,促进大规模语言模型的有效部署,具有重要的实际价值和未来影响。
📄 摘要(原文)
Federated LoRA provides a communication-efficient mechanism for fine-tuning large language models on decentralized data. In practice, however, a discrepancy between the factor-wise averaging used to preserve low rank and the mathematically correct aggregation of local updates can cause significant aggregation error and unstable training. We argue that a major source of this problem is rotational misalignment, arising from the rotational invariance of low-rank factorizations -- semantically equivalent updates can be represented in different latent subspaces across clients since $(B_i R_i)(R_i^\top A_i) = B_i A_i$. When such misaligned factors are averaged directly, they interfere destructively and degrade the global update. To address this issue, we propose FedRot-LoRA, a federated LoRA framework that aligns client updates via orthogonal transformations prior to aggregation. This alignment preserves the semantic update while reducing cross-client subspace mismatch, without increasing communication cost or restricting model expressivity. We provide a convergence analysis that examines the aggregation error induced by factor-wise averaging and shows how rotational alignment yields a tighter upper bound on this error. Extensive experiments on natural language understanding and generative tasks demonstrate that FedRot-LoRA consistently outperforms existing federated LoRA baselines across a range of heterogeneity levels and LoRA ranks.