Privacy-Preserving Federated Learning via Differential Privacy and Homomorphic Encryption for Cardiovascular Disease Risk Modeling
作者: Gaurang Sharma, Juha Pajula, Aada Illikainen, Markus Rautell, Noora Lipsonen, Petri Alhainen, Mika Hilvo
分类: cs.LG
发布日期: 2026-04-30
💡 一句话要点
针对心血管疾病风险建模,提出基于差分隐私和同态加密的隐私保护联邦学习方法
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 联邦学习 差分隐私 同态加密 心血管疾病风险预测 隐私保护 医疗数据 机器学习
📋 核心要点
- 现有机器学习方法在医疗领域面临数据集中化带来的隐私泄露风险,且隐私增强技术存在模型效用降低、计算成本高等问题。
- 该论文探索将差分隐私(DP)和同态加密(HE)集成到联邦学习(FL)中,以在保护隐私的同时进行心血管疾病风险预测。
- 实验结果表明,FL与HE可实现与集中式ML相当的性能,但存在密码学开销;FL与DP计算成本较低,但模型性能受噪声影响较大。
📝 摘要(中文)
在医疗保健领域,保护敏感健康数据同时实现协作分析是一个核心挑战。传统的机器学习方法要求机构集中匿名化的患者记录,将分析开发和隐私风险集中在一个站点。差分隐私(DP)和同态加密(HE)等隐私增强技术(PETs)可以缓解这些风险。然而,它们主要在传统的数据共享设置中研究,并且常常引入权衡,包括降低模型效用、更高的计算成本和增加的实现复杂性。联邦学习(FL)通过允许机构在本地训练模型并仅共享模型更新来减少数据集中化。然而,FL并不能消除隐私风险,因为共享的参数或梯度仍然可能泄露敏感信息。将DP或HE集成到FL中可以加强隐私保证,但它们在真实医疗环境中的比较性能和部署影响仍然不清楚。我们系统地评估了在真实条件下DP和HE在FL中的集成,将它们与标准FL和集中式ML(cML)进行比较,以量化多机构环境中的隐私-效用权衡。使用瑞典全国医疗保健数据,我们评估了使用逻辑回归(LR)和神经网络(NN)学习器进行心血管疾病风险预测。FL与HE实现了与cML相当的性能,但引入了可测量的密码学开销,尤其是在NN实现中。FL与DP产生了较低的计算成本;然而,LR对校准噪声比NN更敏感,导致更大的性能下降。我们的研究结果为在分散的医疗保健系统中部署隐私保护FL提供了实践指导。
🔬 方法详解
问题定义:论文旨在解决医疗数据共享和分析中的隐私保护问题,尤其是在心血管疾病风险预测方面。现有方法,如集中式机器学习,需要将患者数据集中存储,存在隐私泄露风险。联邦学习虽然减少了数据集中化,但共享的模型参数或梯度仍可能泄露敏感信息。因此,如何在保护患者隐私的前提下,实现高效准确的心血管疾病风险预测是本研究要解决的核心问题。
核心思路:论文的核心思路是将差分隐私(DP)和同态加密(HE)这两种隐私增强技术与联邦学习(FL)相结合,以增强隐私保护能力。DP通过在模型训练过程中添加噪声来防止个体信息的泄露,而HE允许在加密数据上进行计算,从而避免了数据明文传输。通过比较DP和HE在FL中的性能,为实际应用选择合适的隐私保护方案提供指导。
技术框架:整体框架包括以下几个主要阶段:1)数据准备:使用瑞典全国医疗保健数据,构建心血管疾病风险预测数据集。2)模型选择:选择逻辑回归(LR)和神经网络(NN)作为预测模型。3)联邦学习:在多个机构本地训练模型,并使用联邦平均算法聚合模型参数。4)隐私保护:在FL过程中,分别集成DP(添加噪声)和HE(加密模型参数)。5)性能评估:比较不同隐私保护方案(DP、HE)以及标准FL和集中式ML的性能,评估隐私-效用权衡。
关键创新:论文的关键创新在于系统性地评估了DP和HE在真实医疗数据场景下与FL的集成效果,并比较了它们在不同模型(LR和NN)上的性能差异。以往的研究大多关注DP或HE在传统数据共享环境下的应用,而本研究则关注它们在FL框架下的实际部署效果,并量化了隐私保护带来的计算开销和模型性能损失。
关键设计:在DP方面,关键设计在于噪声的校准,需要根据模型的敏感度和隐私预算(epsilon)来确定噪声的大小。在HE方面,关键设计在于选择合适的同态加密方案,并优化加密计算过程,以减少计算开销。此外,论文还比较了LR和NN在不同隐私保护方案下的性能差异,发现LR对DP引入的噪声更为敏感。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FL与HE在心血管疾病风险预测任务中,实现了与集中式ML相当的性能,但引入了可测量的密码学开销,尤其是在神经网络实现中。FL与DP产生了较低的计算成本,但逻辑回归模型对噪声更为敏感,导致性能下降。这些结果为在实际应用中选择合适的隐私保护方案提供了重要参考。
🎯 应用场景
该研究成果可应用于医疗保健领域,特别是在需要多机构协作进行疾病风险预测和诊断的场景中。通过使用隐私保护的联邦学习,可以在不泄露患者隐私的前提下,利用多方数据训练出更准确的模型,从而提高疾病预测的准确性和效率。此外,该研究也为其他需要保护敏感数据的领域,如金融、教育等,提供了隐私保护的联邦学习解决方案。
📄 摘要(原文)
Protecting sensitive health data while enabling collaborative analysis is a central challenge in healthcare. Traditional machine learning (ML) requires institutions to pool anonymized patient records, centralizing analytical development and privacy risks at a single site. Privacy-enhancing technologies (PETs), including Differential Privacy (DP) and Homomorphic Encryption (HE), can mitigate these risks. However, they are mainly studied in conventional data-sharing settings and often introduce trade-offs, including reduced model utility, higher computational cost, and increased implementation complexity. Federated Learning (FL) reduces data centralization by enabling institutions to train models locally and share only model updates. Nevertheless, FL does not eliminate privacy risks, as shared parameters or gradients may still reveal sensitive information. Integrating DP or HE into FL can strengthen privacy guarantees, yet their comparative performance and deployment implications in real-world healthcare settings remain unclear. We systematically evaluated DP and HE integration in FL under real-world conditions, comparing them with standard FL and centralized ML (cML) to quantify privacy-utility trade-offs in multi-institutional settings. Using nationwide Swedish healthcare data, we evaluated cardiovascular disease risk prediction using logistic regression (LR) and neural network (NN) learners. FL with HE achieved performance comparable to cML but introduced measurable cryptographic overhead, particularly in the NN implementation. FL with DP incurred lower computational cost; however, LR was more sensitive to calibrated noise than the NN, resulting in greater performance degradation. Our findings provide practical guidance for deploying privacy-preserving FL in fragmented healthcare systems.