A Multiparty Homomorphic Encryption Approach to Confidential Federated Kaplan Meier Survival Analysis

作者: Narasimha Raghavan Veeraragavan, Svetlana Boudko, Jan Franz Nygård

分类: cs.CR, cs.AI, cs.LG, stat.ML

发布日期: 2024-12-29

备注: 40 pages

💡 一句话要点

提出一种基于多方同态加密的联邦Kaplan-Meier生存分析方法，保护患者隐私。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 联邦学习 同态加密 生存分析 Kaplan-Meier 隐私保护 多方计算 医疗数据 数据安全

📋 核心要点

现有医疗数据共享面临隐私挑战，阻碍了跨机构的合作研究和生存分析。
提出基于多方同态加密的联邦学习框架，实现隐私保护的Kaplan-Meier生存分析。
实验表明，该框架在保证隐私的同时，生存曲线估计精度与非加密分析结果高度一致。

📝 摘要（中文）

医疗保健数据的激增为合作研究提供了更多机会，但严格的隐私法规阻碍了敏感患者记录的汇集。我们提出了一个基于多方同态加密的框架，用于保护隐私的联邦Kaplan-Meier生存分析，提供原生浮点支持、理论模型和显式的重构攻击缓解。与先前的工作相比，我们的框架确保加密的联邦生存估计与集中式结果紧密匹配，并由正式的效用损失界限支持，该界限证明了随着聚合和解密噪声的减少而收敛。在NCCTG肺癌和合成乳腺癌数据集上的大量实验证实了低平均绝对误差（MAE）和均方根误差（RMSE），表明加密和非加密生存曲线之间的偏差可以忽略不计。对数秩和数值精度测试表明，联邦加密和非加密分析之间没有显著差异，从而保持了统计有效性。重构攻击评估表明，机构之间数据重叠的小型联邦（2-3个提供者）容易受到攻击，这可以通过多方加密来缓解。较大的联邦（5-50个站点）进一步降低了重构精度，而加密提高了机密性。尽管计算开销增加了8-19倍，但基于阈值的同态加密对于中等规模的部署是可行的，从而平衡了安全性和运行时。通过提供强大的隐私保证以及高保真生存估计，我们的框架提高了安全多机构生存分析的水平。

🔬 方法详解

问题定义：现有的医疗数据共享和分析方法，尤其是在生存分析领域，面临着严格的隐私保护挑战。直接共享患者数据违反了HIPAA等法规，而传统的联邦学习方法可能无法提供足够的隐私保护，并且可能受到重构攻击。因此，如何在保护患者隐私的前提下，实现跨机构的Kaplan-Meier生存分析是一个亟待解决的问题。

核心思路：本论文的核心思路是利用多方同态加密（Multiparty Homomorphic Encryption, MHE）技术，允许多个参与方在不暴露各自原始数据的情况下，共同完成Kaplan-Meier生存分析的计算。通过同态加密，可以在加密数据上进行计算，得到加密的结果，最后由授权方解密得到最终结果，从而避免了原始数据的泄露。

技术框架：该框架主要包含以下几个阶段：1) 数据准备阶段：每个参与方（例如医院）对其本地的生存数据进行预处理，包括生存时间和事件发生情况等。2) 加密阶段：使用多方同态加密算法，每个参与方使用自己的密钥对本地数据进行加密。3) 联邦计算阶段：各参与方在加密数据上进行Kaplan-Meier生存分析所需的中间计算，例如风险集大小、事件发生数等。这些计算过程不需要解密数据。4) 聚合阶段：将各参与方的加密中间结果进行聚合，得到全局的加密结果。5) 解密阶段：由授权方（例如一个可信第三方或多个参与方共同）使用密钥对聚合后的加密结果进行解密，得到最终的Kaplan-Meier生存曲线。

关键创新：该论文的关键创新在于将多方同态加密技术应用于联邦Kaplan-Meier生存分析，并提供原生浮点支持。与现有方法相比，该方法能够提供更强的隐私保护，并且避免了浮点数近似带来的精度损失。此外，论文还提出了一个理论模型，用于分析和评估隐私保护的效用损失，并提出了显式的重构攻击缓解措施。

关键设计：论文中使用了基于阈值的同态加密方案，这意味着只有当达到预设的阈值数量的参与方共同参与解密时，才能成功解密数据。这种设计可以提高系统的安全性，防止单个参与方泄露密钥。此外，论文还对加密参数进行了优化，以平衡安全性和计算效率。论文还考虑了数据重叠情况下的重构攻击，并提出了相应的缓解策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架在NCCTG肺癌和合成乳腺癌数据集上实现了高精度的生存曲线估计，平均绝对误差（MAE）和均方根误差（RMSE）均较低，表明加密和非加密生存曲线之间的偏差可以忽略不计。对数秩和数值精度测试表明，联邦加密和非加密分析之间没有显著差异。重构攻击评估表明，较大的联邦（5-50个站点）能够有效降低重构精度，提高数据机密性。虽然计算开销增加了8-19倍，但对于中等规模的部署是可行的。

🎯 应用场景

该研究成果可应用于医疗健康领域，实现跨医院、研究机构的合作研究，加速新药研发、疾病预测和个性化治疗方案的制定。通过保护患者隐私，促进医疗数据的安全共享和利用，为公共卫生事业做出贡献。未来，该技术可扩展到其他需要隐私保护的统计分析任务中。

📄 摘要（原文）

The proliferation of healthcare data has expanded opportunities for collaborative research, yet stringent privacy regulations hinder pooling sensitive patient records. We propose a \emph{multiparty homomorphic encryption-based} framework for \emph{privacy-preserving federated Kaplan--Meier survival analysis}, offering native floating-point support, a theoretical model, and explicit reconstruction-attack mitigation. Compared to prior work, our framework ensures encrypted federated survival estimates closely match centralized outcomes, supported by formal utility-loss bounds that demonstrate convergence as aggregation and decryption noise diminish. Extensive experiments on the NCCTG Lung Cancer and synthetic Breast Cancer datasets confirm low \emph{mean absolute error (MAE)} and \emph{root mean squared error (RMSE)}, indicating negligible deviations between encrypted and non-encrypted survival curves. Log-rank and numerical accuracy tests reveal \emph{no significant difference} between federated encrypted and non-encrypted analyses, preserving statistical validity. A reconstruction-attack evaluation shows smaller federations (2--3 providers) with overlapping data between the institutions are vulnerable, a challenge mitigated by multiparty encryption. Larger federations (5--50 sites) degrade reconstruction accuracy further, with encryption improving confidentiality. Despite an 8--19$\times$ computational overhead, threshold-based homomorphic encryption is \emph{feasible for moderate-scale deployments}, balancing security and runtime. By providing robust privacy guarantees alongside high-fidelity survival estimates, our framework advances the state-of-the art in secure multi-institutional survival analysis.

A Multiparty Homomorphic Encryption Approach to Confidential Federated Kaplan Meier Survival Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理