MedLeak: Multimodal Medical Data Leakage in Secure Federated Learning with Crafted Models

📄 arXiv: 2407.09972v2 📥 PDF

作者: Shanghao Shi, Md Shahedul Haque, Abhijeet Parida, Chaoyu Zhang, Marius George Linguraru, Y. Thomas Hou, Syed Muhammad Anwar, Wenjing Lou

分类: cs.LG, cs.CR, eess.IV

发布日期: 2024-07-13 (更新: 2025-06-29)

备注: Accepted by the IEEE/ACM conference on Connected Health: Applications, Systems and Engineering Technologies 2025 (CHASE'25)

DOI: 10.1145/3721201.3721375


💡 一句话要点

MedLeak:通过恶意构造模型在联邦学习中泄露多模态医疗数据

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 隐私攻击 模型反演 医疗数据 数据泄露

📋 核心要点

  1. 联邦学习在医疗机构间共享敏感数据时面临隐私泄露风险,现有方法难以有效防御。
  2. MedLeak通过构造恶意模型,从客户端模型更新中高效恢复站点特定的私有医疗数据。
  3. 实验证明MedLeak在图像和文本数据集上均能实现高数据恢复率,且恢复数据可用于下游任务。

📝 摘要(中文)

本文提出了一种名为MedLeak的新型隐私攻击,该攻击允许恶意联邦学习(FL)服务器从客户端模型更新中恢复高质量的特定站点私有医疗数据。MedLeak通过在FL训练过程中引入对抗性构造的模型来实现。不知情的诚实客户端按照标准FL协议继续发送更新。MedLeak利用一种新的分析方法,可以有效地从聚合的参数更新中恢复私有客户端数据,从而消除了代价高昂的优化。此外,该方案仅依赖于聚合的更新,因此使得安全聚合协议失效,因为它们依赖于中间结果的随机化来实现安全性,而最终的聚合结果保持不变。我们在医疗图像数据集(MedMNIST、COVIDx CXR-4和Kaggle Brain Tumor MRI)以及医疗文本数据集(MedAbstract)上实现了MedLeak。结果表明,我们的攻击在图像和文本数据集上都实现了高恢复率和强大的定量分数。我们还全面评估了MedLeak在不同攻击参数下的表现,从而深入了解了影响攻击性能和潜在防御的关键因素。此外,我们证明了恢复的数据可以支持下游任务,例如疾病分类,且性能损失最小。我们的发现验证了FL系统中需要增强的隐私措施,特别是为了保护敏感医疗数据免受强大的模型反演攻击。

🔬 方法详解

问题定义:联邦学习旨在保护客户端数据隐私,但现有的安全聚合协议主要关注中间结果的随机化,而忽略了最终聚合的模型更新可能泄露客户端的私有数据。因此,如何从聚合的模型更新中恢复客户端的私有数据,并评估联邦学习在医疗数据场景下的隐私风险,是本文要解决的核心问题。

核心思路:本文的核心思路是设计一种对抗性的模型,该模型在联邦学习的训练过程中被恶意服务器引入。通过精心构造该模型,使得客户端在更新模型参数时,会将自身的私有数据信息编码到更新的梯度中。恶意服务器随后利用一种新的分析方法,从聚合的梯度更新中提取出客户端的私有数据,而无需进行复杂的优化过程。

技术框架:MedLeak攻击主要包含以下几个阶段:1) 恶意服务器构造对抗性模型,并将其分发给参与联邦学习的客户端;2) 诚实的客户端使用本地数据更新模型参数,并将更新后的梯度发送回服务器;3) 恶意服务器收集所有客户端的梯度更新,并利用提出的分析方法从中恢复客户端的私有数据。整个过程无需修改标准的联邦学习流程,因此具有很强的隐蔽性。

关键创新:MedLeak的关键创新在于提出了一种新的分析方法,可以直接从聚合的梯度更新中恢复客户端的私有数据,而无需进行迭代优化。这种方法极大地提高了攻击效率,并且可以绕过现有的安全聚合协议,因为这些协议只关注中间结果的保护,而忽略了最终聚合结果的隐私风险。

关键设计:对抗性模型的构造是MedLeak攻击的关键。具体来说,恶意服务器会修改模型的某些参数,使得客户端在更新这些参数时,会将自身的私有数据信息编码到梯度中。此外,论文还详细分析了不同攻击参数(例如,对抗性模型的强度、客户端的数量等)对攻击性能的影响,并提出了相应的防御策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedLeak在多个医疗数据集上进行了实验,包括MedMNIST、COVIDx CXR-4、Kaggle Brain Tumor MRI和MedAbstract。实验结果表明,该攻击能够以高恢复率和强大的定量分数恢复客户端的私有数据。例如,在图像数据集上,MedLeak能够恢复清晰可辨的图像,并且恢复的数据可以用于下游的疾病分类任务,性能损失很小。这些结果充分证明了MedLeak攻击的有效性和威胁性。

🎯 应用场景

MedLeak的研究成果对联邦学习在医疗领域的应用具有重要的警示意义。该研究揭示了即使采用安全聚合协议,联邦学习仍然存在严重的隐私泄露风险。因此,需要开发更强大的隐私保护机制,例如差分隐私、同态加密等,以确保敏感医疗数据在联邦学习过程中的安全。该研究还可以促进对联邦学习隐私风险的更深入理解,并推动相关安全技术的发展。

📄 摘要(原文)

Federated learning (FL) allows participants to collaboratively train machine learning models while keeping their data local, making it ideal for collaborations among healthcare institutions on sensitive data. However, in this paper, we propose a novel privacy attack called MedLeak, which allows a malicious FL server to recover high-quality site-specific private medical data from the client model updates. MedLeak works by introducing an adversarially crafted model during the FL training process. Honest clients, unaware of the insidious changes in the published models, continue to send back their updates as per the standard FL protocol. Leveraging a novel analytical method, MedLeak can efficiently recover private client data from the aggregated parameter updates, eliminating costly optimization. In addition, the scheme relies solely on the aggregated updates, thus rendering secure aggregation protocols ineffective, as they depend on the randomization of intermediate results for security while leaving the final aggregated results unaltered. We implement MedLeak on medical image datasets (MedMNIST, COVIDx CXR-4, and Kaggle Brain Tumor MRI), as well as a medical text dataset (MedAbstract). The results demonstrate that our attack achieves high recovery rates and strong quantitative scores on both image and text datasets. We also thoroughly evaluate MedLeak across different attack parameters, providing insights into key factors that influence attack performance and potential defenses. Furthermore, we demonstrate that the recovered data can support downstream tasks such as disease classification with minimal performance loss. Our findings validate the need for enhanced privacy measures in FL systems, particularly for safeguarding sensitive medical data against powerful model inversion attacks.