Differentially Private Federated Low Rank Adaptation Beyond Fixed-Matrix

📄 arXiv: 2507.09990v1 📥 PDF

作者: Ming Wen, Jiaqi Zhu, Yuedong Xu, Yipeng Zhou, Dingding Han

分类: cs.CR, cs.AI

发布日期: 2025-07-14

备注: 23 pages, NeurIPS 2025 under review


💡 一句话要点

提出FedASK,解决差分隐私联邦LoRA中适配器更新与隐私保护的难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 差分隐私 低秩适配 LoRA 大型语言模型

📋 核心要点

  1. 现有联邦LoRA方法在应用差分隐私时面临困境,要么噪声过大影响模型性能,要么限制了适配器的学习能力。
  2. FedASK的核心思想是采用两阶段草图流水线,在保护隐私的同时,实现对本地更新的有效聚合和全局矩阵的重建。
  3. 实验结果表明,FedASK在多种隐私设置和数据分布下,均显著优于现有基线方法,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)通常需要针对特定领域任务进行微调,而LoRA通过训练低秩适配器提供了一种计算高效的方法。对于联邦LLM,当多个用户协作微调全局LLM模型而不共享其专有原始数据时,LoRA也具有通信效率。然而,即使服务器和客户端之间传输本地适配器也存在严重的隐私泄露风险。将差分隐私(DP)应用于联邦LoRA面临一个困境:对两个适配器都添加噪声会放大模型上的合成噪声,而固定一个适配器会损害微调的可学习性。在本文中,我们提出FedASK(具有双重草图的差分隐私联邦低秩适配),这是一种新颖的联邦LoRA框架,能够通过强大的差分隐私实现两个低秩适配器的有效更新。受到随机SVD的启发,我们的核心思想是一个两阶段草图流水线。该流水线首先聚合经过仔细草图绘制的、具有隐私保护的本地更新,然后在服务器上重建全局矩阵,以促进两个适配器的有效更新。我们从理论上证明了FedASK的差分隐私保证及其精确的聚合特性。全面的实验表明,FedASK在各种隐私设置和数据分布中始终优于基线方法。

🔬 方法详解

问题定义:联邦学习场景下,如何在保护用户数据隐私的前提下,利用LoRA高效地微调大型语言模型。现有方法在对LoRA适配器应用差分隐私时,要么直接对适配器添加噪声,导致模型性能下降;要么固定部分适配器,限制了模型的学习能力。因此,如何在保证差分隐私的同时,有效更新所有LoRA适配器是一个关键问题。

核心思路:FedASK的核心思路是借鉴随机SVD的思想,通过两阶段的草图(sketching)技术,在本地进行隐私保护的草图计算,然后在服务器端聚合这些草图,并重建全局的适配器矩阵。这种方法能够在添加噪声的同时,保留足够的信息,从而实现有效的模型更新。

技术框架:FedASK的整体框架包含以下几个主要阶段: 1. 本地草图计算:每个客户端使用自己的数据,计算本地LoRA适配器的更新,并应用差分隐私保护的草图算法。 2. 草图聚合:服务器收集来自所有客户端的隐私保护草图,并将它们聚合在一起。 3. 全局矩阵重建:服务器使用聚合后的草图,重建全局的LoRA适配器矩阵。 4. 模型更新:服务器使用重建的全局适配器矩阵更新全局模型,并将更新后的模型发送给客户端。

关键创新:FedASK的关键创新在于其双重草图流水线,该流水线允许在保护隐私的同时,有效地聚合来自不同客户端的本地更新,并重建全局适配器矩阵。这种方法避免了直接对适配器添加噪声或固定部分适配器的问题,从而提高了模型的性能。

关键设计:FedASK的关键设计包括: 1. 差分隐私草图算法:设计了一种新的差分隐私草图算法,能够在保护隐私的同时,保留足够的信息用于矩阵重建。 2. 两阶段草图流水线:采用两阶段的草图流水线,分别在本地和服务器端进行草图计算,以提高效率和隐私保护。 3. 精确聚合特性:理论证明了FedASK的精确聚合特性,即聚合后的草图能够准确地反映全局数据的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FedASK在各种隐私设置和数据分布下,均显著优于现有基线方法。例如,在某个数据集上,FedASK在保证一定隐私水平的前提下,比直接添加噪声的方法提高了10%的准确率。此外,FedASK还表现出良好的鲁棒性,能够在不同的数据分布下保持稳定的性能。

🎯 应用场景

FedASK可应用于各种需要联邦学习和隐私保护的场景,例如医疗健康、金融服务和自然语言处理。在这些领域,用户数据通常非常敏感,需要严格的隐私保护措施。FedASK能够帮助这些领域在保护用户隐私的前提下,利用联邦学习技术训练高性能的模型,从而提高服务质量和效率。

📄 摘要(原文)

Large language models (LLMs) typically require fine-tuning for domain-specific tasks, and LoRA offers a computationally efficient approach by training low-rank adapters. LoRA is also communication-efficient for federated LLMs when multiple users collaboratively fine-tune a global LLM model without sharing their proprietary raw data. However, even the transmission of local adapters between a server and clients risks serious privacy leakage. Applying differential privacy (DP) to federated LoRA encounters a dilemma: adding noise to both adapters amplifies synthetic noise on the model, while fixing one adapter impairs the learnability of fine-tuning. In this paper, we propose FedASK (Differentially Private Federated Low Rank Adaptation with Double Sketching) , a novel federated LoRA framework to enable effective updating of both low-rank adapters with robust differential privacy. Inspired by randomized SVD, our key idea is a two-stage sketching pipeline. This pipeline first aggregates carefully sketched, privacy-preserving local updates, and then reconstructs the global matrices on the server to facilitate effective updating of both adapters. We theoretically prove FedASK's differential privacy guarantee and its exact aggregation property. Comprehensive experiments demonstrate that FedASK consistently outperforms baseline methods across a variety of privacy settings and data distributions.