Fed-SB: A Silver Bullet for Extreme Communication Efficiency and Performance in (Private) Federated LoRA Fine-Tuning

作者: Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Lav R. Varshney, Praneeth Vepakomma

分类: cs.LG, cs.AI, cs.CL, cs.DC

发布日期: 2025-02-21 (更新: 2025-10-04)

备注: Raghav Singhal and Kaustubh Ponkshe contributed equally to this work

🔗 代码/项目: GITHUB

💡 一句话要点

Fed-SB：一种用于(私有)联邦LoRA微调的高效通信和高性能银弹方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 低秩适应 LoRA LoRA-SB 通信效率 隐私保护 大型语言模型 模型微调

📋 核心要点

现有联邦LoRA微调方法面临通信成本高昂或性能下降的挑战，难以兼顾效率与精度。
Fed-SB利用LoRA-SB，通过直接平均适配器间的小方阵R，实现精确更新，降低通信成本。
实验表明，Fed-SB在多个推理任务上达到SOTA，通信成本降低高达230倍，并在私有设置中表现更佳。

📝 摘要（中文）

低秩适应(LoRA)已成为高效微调基础模型的常用方法。然而，由于传统联邦平均个体适配器导致次优更新，使用LoRA进行联邦微调具有挑战性。现有解决方案要么产生与客户端数量线性相关的过高通信成本，要么由于有限的表达能力而导致性能下降。我们引入了联邦银弹(Fed-SB)，这是一种使用LoRA-SB（一种最近提出的低秩适应方法）对LLM进行联邦微调的新方法。LoRA-SB通过学习适配器B和A之间的一个小方阵(R)，并保持其他组件固定，从而使优化轨迹与理想的低秩全微调投影最佳对齐。直接平均R保证了精确的更新，大大降低了通信成本，通信成本与客户端数量无关，并实现了可扩展性。Fed-SB在常识推理、算术推理和语言推理任务中实现了最先进的性能，同时将通信成本降低了高达230倍。在私有设置中，Fed-SB通过(1)减少可训练参数，从而降低差分隐私所需的噪声，以及(2)避免其他方法引入的噪声放大，进一步提高了性能。总的来说，Fed-SB为私有和非私有联邦微调提供了一种最先进、高效且可扩展的解决方案。我们的代码已公开发布在：https://github.com/CERT-Lab/fed-sb。

🔬 方法详解

问题定义：论文旨在解决联邦学习场景下，使用LoRA微调大型语言模型时，通信效率低和性能受限的问题。现有方法，如直接平均LoRA适配器，会导致次优更新，而其他方法则会引入过高的通信开销，限制了模型的可扩展性和实用性。

核心思路：论文的核心思路是利用LoRA-SB方法，该方法通过学习适配器之间的转换矩阵R，能够更精确地对齐优化轨迹与全量微调的投影。通过直接平均这个矩阵R，可以实现精确的全局更新，同时显著降低通信成本，使其与客户端数量无关。

技术框架：Fed-SB的整体框架遵循联邦学习的通用流程，包括客户端本地训练和服务器端聚合。不同之处在于，客户端使用LoRA-SB进行本地微调，服务器端不再直接平均LoRA适配器，而是平均LoRA-SB中的转换矩阵R。聚合后的R被广播回客户端，用于更新本地模型。

关键创新：最重要的技术创新点在于使用LoRA-SB并平均其转换矩阵R。与直接平均LoRA适配器相比，这种方法能够更精确地捕捉全局最优更新方向，从而提高模型性能。同时，由于R是一个小方阵，其通信成本远低于传输整个LoRA适配器，从而显著提高了通信效率。

关键设计：LoRA-SB的关键设计在于学习适配器B和A之间的转换矩阵R，使得B ≈ AR。损失函数通常采用均方误差来衡量B和AR之间的差异。在联邦学习中，服务器端对客户端上传的R进行加权平均，权重通常基于客户端的数据量。为了保护隐私，可以对R添加差分隐私噪声。

🖼️ 关键图片

📊 实验亮点

Fed-SB在常识推理、算术推理和语言推理任务中取得了最先进的性能。与现有方法相比，Fed-SB将通信成本降低了高达230倍，同时保持或提高了模型性能。在私有设置中，Fed-SB通过减少可训练参数和避免噪声放大，进一步提高了性能。

🎯 应用场景

Fed-SB适用于各种需要联邦学习的场景，尤其是在数据隐私至关重要且通信带宽受限的情况下。例如，在医疗保健领域，可以使用Fed-SB对来自不同医院的电子病历数据进行联合微调，以提高疾病诊断的准确性，同时保护患者隐私。该方法还可以应用于金融、自动驾驶等领域。

📄 摘要（原文）

Low-Rank Adaptation (LoRA) has become ubiquitous for efficiently fine-tuning foundation models. However, federated fine-tuning using LoRA is challenging due to suboptimal updates arising from traditional federated averaging of individual adapters. Existing solutions either incur prohibitively high communication cost that scales linearly with the number of clients or suffer from performance degradation due to limited expressivity. We introduce Federated Silver Bullet (Fed-SB), a novel approach for federated fine-tuning of LLMs using LoRA-SB, a recently proposed low-rank adaptation method. LoRA-SB optimally aligns the optimization trajectory with the ideal low-rank full fine-tuning projection by learning a small square matrix (R) between adapters B and A, keeping other components fixed. Direct averaging of R guarantees exact updates, substantially reducing communication cost, which remains independent of the number of clients, and enables scalability. Fed-SB achieves state-of-the-art performance across commonsense reasoning, arithmetic reasoning, and language inference tasks while reducing communication costs by up to 230x. In private settings, Fed-SB further improves performance by (1) reducing trainable parameters, thereby lowering the noise required for differential privacy and (2) avoiding noise amplification introduced by other methods. Overall, Fed-SB offers a state-of-the-art, efficient, and scalable solution for both private and non-private federated fine-tuning. Our code is publicly available at: https://github.com/CERT-Lab/fed-sb.

Fed-SB: A Silver Bullet for Extreme Communication Efficiency and Performance in (Private) Federated LoRA Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理