FedAttr: Towards Privacy-preserving Client-Level Attribution in Federated LLM Fine-tuning

作者: Su Zhang, Junfeng Guo, Heng Huang

分类: cs.CR, cs.LG

发布日期: 2026-05-07

备注: 39 pages, 4 figures, 21 tables (including appendix)

💡 一句话要点

FedAttr：联邦LLM微调中面向隐私保护的客户端归因方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大型语言模型 客户端归因 隐私保护 水印技术

📋 核心要点

现有联邦学习在LLM微调中，虽然通过安全聚合保护了客户端隐私，但难以追踪哪些客户端使用了带水印的数据。
FedAttr通过配对子集差分机制估计客户端更新，并结合差分评分和Stouffer方法进行客户端级别的归因。
实验表明，FedAttr在保证隐私的前提下，实现了100%的TPR和0%的FPR，显著优于现有基线方法。

📝 摘要（中文）

水印放射性测试方法可以检测模型是否在带有水印的文档上训练过，并且已经成为保护大型语言模型（LLM）微调中数据所有权的关键工具。现有工作已经证明了它们在集中式LLM微调中的有效性。然而，这种类型的方法在联邦学习（FL）中面临若干挑战并且仍然未被充分探索，联邦学习是一种广泛应用的范例，用于在不同用户的私有数据上协作微调LLM。FL主要通过安全聚合（SA）来确保隐私，这允许服务器聚合更新，同时保持客户端更新的私密性。这种机制保护了隐私，但也使得识别哪些客户端在带有水印的文档上训练变得困难。在这项工作中，我们提出了FedAttr，一种新的FL客户端级别归因协议。FedAttr通过配对子集差分机制识别哪些客户端在带有水印的数据上训练过，同时保持SA的隐私保证和FL性能。FedAttr分三个步骤进行：（i）通过差分两个SA查询来估计每个客户端的更新，（ii）通过差分评分用水印检测器对估计进行评分，以及（iii）通过Stouffer方法组合跨轮次的分数。我们从理论上证明，FedAttr产生每个客户端更新的无偏估计，具有有界的互信息泄漏（即，每轮更新$O(d^*/N)$）。此外，FedAttr在经验上实现了100%的TPR和0%的FPR，在TPR或FPR方面至少优于所有基线44.4%或19.1%，相对于FL训练时间仅有6.3%的开销。消融研究证实，FedAttr对协议参数和配置具有鲁棒性。

🔬 方法详解

问题定义：论文旨在解决联邦学习（FL）场景下，如何在保护客户端隐私的前提下，对参与LLM微调的客户端进行归因，特别是识别哪些客户端使用了带有水印的数据进行训练。现有方法在集中式训练中有效，但在FL中，由于安全聚合（SA）机制隐藏了客户端的个体更新，因此难以直接应用。

核心思路：FedAttr的核心思路是利用配对子集差分机制来估计每个客户端的更新，并通过差分评分来评估该更新与水印的关联性。通过巧妙地设计查询和计算方式，可以在不泄露个体客户端数据的前提下，推断出哪些客户端可能使用了带水印的数据。

技术框架：FedAttr协议主要包含三个阶段：(1) 客户端更新估计：通过差分两个安全聚合（SA）查询，估计每个客户端的更新。(2) 差分评分：使用水印检测器对估计的客户端更新进行评分，评估其与水印的关联程度。(3) 分数聚合：使用Stouffer方法组合跨轮次的分数，以提高归因的准确性。整体流程在保证隐私的前提下，实现了客户端级别的归因。

关键创新：FedAttr的关键创新在于其配对子集差分机制和差分评分方法。配对子集差分机制允许在不直接暴露客户端更新的情况下估计其更新方向，而差分评分则利用水印检测器来评估更新与水印的关联性。这种结合使得在联邦学习环境中进行客户端归因成为可能。

关键设计：FedAttr的关键设计包括：(1) 精心设计的安全聚合查询，确保差分结果能够反映客户端的更新方向。(2) 使用差分评分来量化客户端更新与水印的关联程度，避免直接暴露客户端数据。(3) 使用Stouffer方法进行分数聚合，提高归因的鲁棒性和准确性。(4) 理论分析保证了算法的隐私性和无偏性，并给出了互信息泄漏的上界。

🖼️ 关键图片

📊 实验亮点

FedAttr在实验中实现了100%的TPR（真阳性率）和0%的FPR（假阳性率），显著优于所有基线方法，TPR至少提升44.4%，FPR至少降低19.1%。同时，FedAttr相对于标准的联邦学习训练，仅引入了6.3%的额外开销。消融实验验证了FedAttr对协议参数和配置的鲁棒性。

🎯 应用场景

FedAttr可应用于保护联邦学习中LLM微调的数据所有权。例如，数据提供方可以通过水印技术追踪未经授权使用其数据的客户端，从而维护自身权益。此外，该技术还可用于检测恶意客户端，防止其通过注入恶意数据来破坏联邦学习过程。该研究对于促进安全可信的联邦学习具有重要意义。

📄 摘要（原文）

Watermark radioactivity testing type of methods can detect whether a model was trained on watermarked documents, and have become key tools for protecting data ownership in the fine-tuning of large language models (LLMs). Existing works have proved their effectiveness in centralized LLM fine-tuning. However, this type of method faces several challenges and remains underexplored in federated learning (FL), a widely-applied paradigm for fine-tuning LLMs collaboratively on private data across different users. FL mainly ensures privacy through secure aggregation (SA), which allows the server to aggregate updates while keeping clients' updates private. This mechanism preserves privacy but makes it difficult to identify which client trained on watermarked documents. In this work, we propose FedAttr, a new client-level attribution protocol for FL. FedAttr identifies which clients trained on watermarked data via a paired-subset-difference mechanism, while preserving the privacy guarantees of SA and FL performance. FedAttr proceeds in three steps: (i) estimate each client's update by differencing two SA queries, (ii) score the estimate with the watermark detector via differential scoring, and (iii) combine scores across rounds via Stouffer method. We theoretically show that FedAttr produces an unbiased estimator of each client's update with bounded mutual information leakage (i.e., $O(d^*/N)$ per-round update). Moreover, FedAttr empirically achieves 100% TPR and 0% FPR, outperforming all baselines by at least 44.4% in TPR or 19.1% in FPR, with only 6.3% overhead relative to FL training time. Ablation studies confirm that FedAttr is robust to protocol parameters and configurations.

FedAttr: Towards Privacy-preserving Client-Level Attribution in Federated LLM Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理