Beyond Factor Aggregation: Gauge-Aware Low-Rank Server Representations for Federated LoRA
作者: Jinqian Chen, Chang Liu, Jihua Zhu
分类: cs.LG, cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出GLoRA:一种面向联邦LoRA的规范不变低秩聚合框架,解决参数聚合中的语义失配问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 低秩适应 大语言模型 参数高效微调 规范不变性 分布式优化
📋 核心要点
- 现有联邦LoRA直接平均低秩因子,忽略了LoRA分解的规范等价性,导致在不同坐标系下聚合结果不一致,产生语义失配。
- GLoRA通过估计客户端投影矩阵的共识更新子空间,在共享参考坐标系下进行聚合,确保了更新表示的规范不变性与语义一致性。
- 实验证明GLoRA在处理异构客户端秩、稀疏参与及复杂任务场景时,显著优于传统联邦LoRA方法,并支持高效的秩兼容读取。
📝 摘要(中文)
联邦LoRA实现了去中心化数据与受限客户端资源下大语言模型的参数高效微调。然而,直接对LoRA因子进行平均存在表示依赖性问题:相同的内在更新对应无穷多种规范等价的因子分解,导致因子级聚合在坐标变换下不稳定,而底层更新却保持不变。这揭示了现有联邦LoRA聚合规则中存在的语义失配。本文提出了GLoRA,一种用于联邦LoRA的规范感知服务器表示方法。GLoRA不直接聚合原始因子,而是通过客户端投影矩阵估计共识更新子空间,并在共享参考坐标系下聚合更新,从而以低秩形式完整表达语义更新。为支持异构客户端容量,GLoRA提供了秩兼容的读取机制,无需稠密更新重构即可从同一服务器状态实例化不同秩的适配器。在GLUE和SuperNI上的实验表明,GLoRA在数据、资源及任务异构性(包括异构秩、稀疏参与、大模型骨干及未见任务)下均优于现有基线,实现了性能与效率的平衡。
🔬 方法详解
问题定义:联邦LoRA的核心挑战在于如何聚合分布在不同客户端上的低秩适配器。现有方法直接对LoRA的A、B矩阵进行加权平均,但LoRA分解具有规范等价性(Gauge Equivalence),即对于任意可逆矩阵P,(A, B)与(AP^{-1}, PB)表示相同的更新,直接平均会导致聚合结果随坐标选择而改变,破坏了更新的语义一致性。
核心思路:论文引入“规范感知”思想,将聚合目标从原始因子转移到更新子空间。通过利用客户端的投影矩阵(Projectors)来表征更新方向,在共享的参考坐标系下进行聚合,从而消除规范变换带来的不确定性,实现真正的语义级聚合。
技术框架:GLoRA框架包含三个阶段:首先,客户端计算并上传其更新的投影矩阵;其次,服务器端通过聚合这些投影矩阵估计全局共识更新子空间;最后,服务器利用该子空间生成全局LoRA因子,并支持客户端根据自身资源约束进行秩兼容的读取。
关键创新:最重要的创新在于将聚合对象从“因子”转向“子空间”。通过规范感知(Gauge-Aware)设计,使得聚合过程对坐标变换具有不变性,从根本上解决了联邦学习中LoRA参数聚合的语义失配问题。
关键设计:关键技术细节包括利用奇异值分解(SVD)或投影矩阵对齐技术来对齐不同客户端的更新方向,并设计了秩兼容的读取机制,允许服务器状态以不同秩实例化适配器,无需进行昂贵的稠密参数重构,有效应对了客户端计算能力的异构性。
🖼️ 关键图片
📊 实验亮点
GLoRA在GLUE和SuperNI基准测试中表现优异,在处理异构客户端秩、稀疏参与及大模型骨干(如LLaMA系列)时,性能显著超越FedLoRA等基线方法。实验证明其在未见任务上的泛化能力更强,且通过秩兼容读取机制,在保持高性能的同时大幅降低了通信与计算开销,实现了极佳的效率-性能权衡。
🎯 应用场景
该研究适用于资源受限的边缘计算环境,如移动设备或物联网终端的大模型协同微调。其在处理数据分布异构(Non-IID)及客户端计算能力差异巨大的场景下具有显著价值,可广泛应用于隐私保护下的个性化大模型训练、跨机构医疗数据协作及分布式知识蒸馏等领域。
📄 摘要(原文)
Federated LoRA enables parameter-efficient adaptation of large language models under decentralized data and limited client resources.However, directly averaging LoRA factors is representation-dependent: the same intrinsic update admits infinitely many gauge-equivalent factorizations, so factor-level aggregation can change under arbitrary coordinate choices while the underlying update remains unchanged. This reveals a semantic mismatch in existing federated LoRA aggregation rules. We propose \textbf{GLoRA}, a gauge-aware server representation for federated LoRA.Instead of aggregating raw factors, GLoRA estimates a consensus update subspace from client projectors and aggregates client updates in shared reference coordinates, thereby representing semantic update aggregation entirely in low-rank form. To support heterogeneous client capacities, GLoRA further provides a rank-compatible readout that instantiates adapters of different ranks from the same server state without dense update reconstruction. Experiments on GLUE and SuperNI show that GLoRA consistently outperforms federated LoRA baselines under data, resource, and task heterogeneity, including heterogeneous client ranks, sparse participation, larger backbones, and unseen-task evaluation. GLoRA also achieves a favorable efficiency--performance trade-off, suggesting that effective federated LoRA requires not merely averaging low-rank factors, but defining a semantically meaningful server-side representation for aggregation.