Toward Efficient Membership Inference Attacks against Federated Large Language Models: A Projection Residual Approach

📄 arXiv: 2604.21197v1 📥 PDF

作者: Guilin Deng, Silong Chen, Yuchuan Luo, Yi Liu, Songlei Wang, Zhiping Cai, Lin Liu, Xiaohua Jia, Shaojing Fu

分类: cs.LG

发布日期: 2026-04-23

备注: This is the full version (including complete appendices and supplementary materials) of the paper accepted for publication at the 2026 IEEE Symposium on Security and Privacy


💡 一句话要点

提出ProjRes以解决联邦大语言模型的成员推断攻击问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 成员推断攻击 隐私保护 大语言模型 投影残差 机器学习 安全性分析

📋 核心要点

  1. 现有的成员推断攻击方法在联邦大语言模型中效果不佳,无法有效利用其特性。
  2. 本文提出的ProjRes方法通过分析投影残差,揭示梯度与输入之间的关系,避免了使用辅助模型的复杂性。
  3. 实验结果显示,ProjRes在准确率上接近100%,相比于之前的方法提升幅度达到75.75%。

📝 摘要(中文)

联邦大语言模型(FedLLMs)允许多个参与方在不共享原始数据的情况下协作微调模型,解决了资源有限和隐私问题。然而,尽管数据本地化,共享的梯度仍可能通过成员推断攻击(MIA)泄露敏感信息。现有的MIA方法在FedLLMs的特性下效果不佳。为此,本文提出了ProjRes,这是首个基于投影残差的被动MIA,专为FedLLMs设计。ProjRes利用隐藏的嵌入向量作为样本表示,并分析其在梯度子空间上的投影残差,以揭示梯度与输入之间的内在联系。实验表明,ProjRes在四个基准和四个LLM上接近100%的准确率,性能比之前的方法提升了最多75.75%,并在强差分隐私防御下依然有效。研究揭示了FedLLMs中被忽视的隐私漏洞,呼吁重新审视其安全假设。

🔬 方法详解

问题定义:本文解决的问题是联邦大语言模型中的成员推断攻击(MIA),现有方法在面对FedLLMs的特性时效果不佳,无法有效利用其大规模参数和稀疏梯度的特点。

核心思路:论文的核心思路是提出ProjRes,通过分析隐藏嵌入向量的投影残差,揭示梯度与输入之间的内在联系,从而实现高效的成员推断攻击。该设计避免了使用影子模型和辅助分类器,确保了方法的高效性和鲁棒性。

技术框架:ProjRes的整体架构包括三个主要模块:首先,提取隐藏嵌入向量作为样本表示;其次,计算这些向量在梯度子空间上的投影残差;最后,通过分析残差来判断样本是否属于训练集。

关键创新:最重要的技术创新点在于首次将投影残差应用于成员推断攻击,利用FedLLMs的特性进行有效的攻击,与现有方法相比,避免了对历史更新和额外模型的依赖。

关键设计:在设计中,ProjRes不需要额外的参数设置或复杂的网络结构,主要依赖于隐藏嵌入向量的计算和梯度的分析,确保了方法的简洁性和高效性。实验中使用的损失函数和评估指标均经过精心设计,以确保结果的准确性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ProjRes在四个基准和四个大语言模型上实现了接近100%的准确率,相比于现有方法提升幅度高达75.75%。即使在强差分隐私防御下,ProjRes依然保持有效,显示出其在隐私攻击中的强大能力。

🎯 应用场景

该研究的潜在应用领域包括保护联邦学习系统中的隐私安全,尤其是在医疗、金融等对数据隐私要求极高的行业。通过识别和修复隐私漏洞,可以增强用户对联邦大语言模型的信任,促进其在实际应用中的广泛采用。

📄 摘要(原文)

Federated Large Language Models (FedLLMs) enable multiple parties to collaboratively fine-tune LLMs without sharing raw data, addressing challenges of limited resources and privacy concerns. Despite data localization, shared gradients can still expose sensitive information through membership inference attacks (MIAs). However, FedLLMs' unique properties, i.e. massive parameter scales, rapid convergence, and sparse, non-orthogonal gradients, render existing MIAs ineffective. To address this gap, we propose ProjRes, the first projection residuals-based passive MIA tailored for FedLLMs. ProjRes leverages hidden embedding vectors as sample representations and analyzes their projection residuals on the gradient subspace to uncover the intrinsic link between gradients and inputs. It requires no shadow models, auxiliary classifiers, or historical updates, ensuring efficiency and robustness. Experiments on four benchmarks and four LLMs show that ProjRes achieves near 100% accuracy, outperforming prior methods by up to 75.75%, and remains effective even under strong differential privacy defenses. Our findings reveal a previously overlooked privacy vulnerability in FedLLMs and call for a re-examination of their security assumptions. Our code and data are available at $\href{https://anonymous.4open.science/r/Passive-MIA-5268}{link}$.