A Multiparty Homomorphic Encryption Approach to Confidential Federated Kaplan Meier Survival Analysis

📄 arXiv: 2412.20495v1 📥 PDF

作者: Narasimha Raghavan Veeraragavan, Svetlana Boudko, Jan Franz Nygård

分类: cs.CR, cs.AI, cs.LG, stat.ML

发布日期: 2024-12-29

备注: 40 pages


💡 一句话要点

提出一种基于多方同态加密的联邦Kaplan-Meier生存分析方法,保护患者隐私。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 联邦学习 同态加密 生存分析 Kaplan-Meier 隐私保护 多方计算 医疗数据 数据安全

📋 核心要点

  1. 现有医疗数据共享面临隐私挑战,阻碍了跨机构的合作研究和生存分析。
  2. 提出基于多方同态加密的联邦学习框架,实现隐私保护的Kaplan-Meier生存分析。
  3. 实验表明,该框架在保证隐私的同时,生存曲线估计精度与非加密分析结果高度一致。

📝 摘要(中文)

医疗保健数据的激增为合作研究提供了更多机会,但严格的隐私法规阻碍了敏感患者记录的汇集。我们提出了一个基于多方同态加密的框架,用于保护隐私的联邦Kaplan-Meier生存分析,提供原生浮点支持、理论模型和显式的重构攻击缓解。与先前的工作相比,我们的框架确保加密的联邦生存估计与集中式结果紧密匹配,并由正式的效用损失界限支持,该界限证明了随着聚合和解密噪声的减少而收敛。在NCCTG肺癌和合成乳腺癌数据集上的大量实验证实了低平均绝对误差(MAE)和均方根误差(RMSE),表明加密和非加密生存曲线之间的偏差可以忽略不计。对数秩和数值精度测试表明,联邦加密和非加密分析之间没有显著差异,从而保持了统计有效性。重构攻击评估表明,机构之间数据重叠的小型联邦(2-3个提供者)容易受到攻击,这可以通过多方加密来缓解。较大的联邦(5-50个站点)进一步降低了重构精度,而加密提高了机密性。尽管计算开销增加了8-19倍,但基于阈值的同态加密对于中等规模的部署是可行的,从而平衡了安全性和运行时。通过提供强大的隐私保证以及高保真生存估计,我们的框架提高了安全多机构生存分析的水平。

🔬 方法详解

问题定义:现有的医疗数据共享和分析方法,尤其是在生存分析领域,面临着严格的隐私保护挑战。直接共享患者数据违反了HIPAA等法规,而传统的联邦学习方法可能无法提供足够的隐私保护,并且可能受到重构攻击。因此,如何在保护患者隐私的前提下,实现跨机构的Kaplan-Meier生存分析是一个亟待解决的问题。

核心思路:本论文的核心思路是利用多方同态加密(Multiparty Homomorphic Encryption, MHE)技术,允许多个参与方在不暴露各自原始数据的情况下,共同完成Kaplan-Meier生存分析的计算。通过同态加密,可以在加密数据上进行计算,得到加密的结果,最后由授权方解密得到最终结果,从而避免了原始数据的泄露。

技术框架:该框架主要包含以下几个阶段:1) 数据准备阶段:每个参与方(例如医院)对其本地的生存数据进行预处理,包括生存时间和事件发生情况等。2) 加密阶段:使用多方同态加密算法,每个参与方使用自己的密钥对本地数据进行加密。3) 联邦计算阶段:各参与方在加密数据上进行Kaplan-Meier生存分析所需的中间计算,例如风险集大小、事件发生数等。这些计算过程不需要解密数据。4) 聚合阶段:将各参与方的加密中间结果进行聚合,得到全局的加密结果。5) 解密阶段:由授权方(例如一个可信第三方或多个参与方共同)使用密钥对聚合后的加密结果进行解密,得到最终的Kaplan-Meier生存曲线。

关键创新:该论文的关键创新在于将多方同态加密技术应用于联邦Kaplan-Meier生存分析,并提供原生浮点支持。与现有方法相比,该方法能够提供更强的隐私保护,并且避免了浮点数近似带来的精度损失。此外,论文还提出了一个理论模型,用于分析和评估隐私保护的效用损失,并提出了显式的重构攻击缓解措施。

关键设计:论文中使用了基于阈值的同态加密方案,这意味着只有当达到预设的阈值数量的参与方共同参与解密时,才能成功解密数据。这种设计可以提高系统的安全性,防止单个参与方泄露密钥。此外,论文还对加密参数进行了优化,以平衡安全性和计算效率。论文还考虑了数据重叠情况下的重构攻击,并提出了相应的缓解策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在NCCTG肺癌和合成乳腺癌数据集上实现了高精度的生存曲线估计,平均绝对误差(MAE)和均方根误差(RMSE)均较低,表明加密和非加密生存曲线之间的偏差可以忽略不计。对数秩和数值精度测试表明,联邦加密和非加密分析之间没有显著差异。重构攻击评估表明,较大的联邦(5-50个站点)能够有效降低重构精度,提高数据机密性。虽然计算开销增加了8-19倍,但对于中等规模的部署是可行的。

🎯 应用场景

该研究成果可应用于医疗健康领域,实现跨医院、研究机构的合作研究,加速新药研发、疾病预测和个性化治疗方案的制定。通过保护患者隐私,促进医疗数据的安全共享和利用,为公共卫生事业做出贡献。未来,该技术可扩展到其他需要隐私保护的统计分析任务中。

📄 摘要(原文)

The proliferation of healthcare data has expanded opportunities for collaborative research, yet stringent privacy regulations hinder pooling sensitive patient records. We propose a \emph{multiparty homomorphic encryption-based} framework for \emph{privacy-preserving federated Kaplan--Meier survival analysis}, offering native floating-point support, a theoretical model, and explicit reconstruction-attack mitigation. Compared to prior work, our framework ensures encrypted federated survival estimates closely match centralized outcomes, supported by formal utility-loss bounds that demonstrate convergence as aggregation and decryption noise diminish. Extensive experiments on the NCCTG Lung Cancer and synthetic Breast Cancer datasets confirm low \emph{mean absolute error (MAE)} and \emph{root mean squared error (RMSE)}, indicating negligible deviations between encrypted and non-encrypted survival curves. Log-rank and numerical accuracy tests reveal \emph{no significant difference} between federated encrypted and non-encrypted analyses, preserving statistical validity. A reconstruction-attack evaluation shows smaller federations (2--3 providers) with overlapping data between the institutions are vulnerable, a challenge mitigated by multiparty encryption. Larger federations (5--50 sites) degrade reconstruction accuracy further, with encryption improving confidentiality. Despite an 8--19$\times$ computational overhead, threshold-based homomorphic encryption is \emph{feasible for moderate-scale deployments}, balancing security and runtime. By providing robust privacy guarantees alongside high-fidelity survival estimates, our framework advances the state-of-the art in secure multi-institutional survival analysis.