SoK: Enhancing Cryptographic Collaborative Learning with Differential Privacy
作者: Francesco Capano, Jonas Böhler, Benjamin Weggenmann
分类: cs.CR, cs.AI, cs.LG
发布日期: 2026-01-14
备注: This work has been accepted for publication at the IEEE Conference on Secure and Trustworthy Machine Learning (SaTML 2026)
💡 一句话要点
系统性研究差分隐私加持的密码学协同学习,并提出统一框架。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 协同学习 差分隐私 多方计算 安全噪声采样 隐私保护 密码学 机器学习
📋 核心要点
- 协同学习面临隐私泄露风险,即使使用密码学技术保护模型,仍可能遭受推理攻击。
- 论文提出统一框架,概括密码学差分隐私协同学习(CPCL)的常见阶段,并强调安全噪声采样的重要性。
- 论文分析了不同安全噪声采样技术,评估了其准确性和密码学开销,并提出了未来研究方向。
📝 摘要(中文)
在协同学习(CL)中,多个参与方联合训练一个机器学习模型,但由于隐私问题无法直接共享数据。为了确保输入机密性,密码学技术(如多方计算MPC)支持在加密数据上进行训练。然而,即使是安全训练的模型也容易受到推理攻击,攻击旨在从模型输出中提取记忆的数据。为了确保输出隐私并减轻推理攻击,差分隐私(DP)在训练期间注入校准噪声。密码学和DP提供互补的保证,但将它们有效地结合用于密码学和差分隐私协同学习(CPCL)具有挑战性。密码学带来性能开销,而DP会降低准确性,从而产生需要仔细设计考虑的隐私-准确性-性能权衡。本文系统化了CPCL领域。我们引入了一个统一框架,该框架概括了CPCL范例中的常见阶段,并将安全噪声采样确定为实现CPCL的基础阶段。我们分析了不同安全噪声采样技术、噪声类型和DP机制的权衡,讨论了它们的实现挑战,并评估了它们在CPCL范例中的准确性和密码学开销。此外,我们在MPC中实现了已识别的安全噪声采样选项,并评估了它们在WAN和LAN中的计算和通信成本。最后,我们基于已识别的关键观察、差距和文献中可能的改进,提出了未来的研究方向。
🔬 方法详解
问题定义:协同学习中,参与方的数据隐私是关键问题。虽然密码学技术可以保护训练过程中的数据,但模型本身仍然可能泄露关于训练数据的敏感信息,例如通过推理攻击。现有方法在密码学和差分隐私结合时,面临性能开销和精度损失的挑战,需要仔细权衡隐私、准确性和性能。
核心思路:论文的核心思路是系统性地研究密码学和差分隐私在协同学习中的结合,并提出一个统一的框架来概括不同的CPCL范例。通过将安全噪声采样确定为CPCL的基础阶段,论文可以更有效地分析和比较不同的技术,并优化隐私-准确性-性能的权衡。
技术框架:论文提出的统一框架包含多个阶段,但重点在于安全噪声采样阶段。该阶段的目标是在加密域中生成满足差分隐私要求的噪声,并将其添加到模型参数或梯度中。框架允许研究人员比较不同的噪声类型(例如高斯噪声、拉普拉斯噪声)和DP机制(例如高斯机制、指数机制),以及不同的安全噪声采样技术。
关键创新:论文的关键创新在于将安全噪声采样确定为CPCL的基础阶段,并提供了一个统一的框架来分析和比较不同的CPCL方法。这使得研究人员能够更系统地理解不同技术之间的权衡,并找到最适合特定应用场景的解决方案。此外,论文还对不同的安全噪声采样技术进行了详细的分析和评估,为实际应用提供了指导。
关键设计:论文分析了多种安全噪声采样技术,包括基于MPC的方案。这些方案通常涉及复杂的密码学协议,例如秘密分享、同态加密等。关键的设计细节包括选择合适的密码学协议、优化通信和计算成本、以及确保噪声的统计特性满足差分隐私的要求。此外,论文还考虑了不同的噪声类型和DP机制,并分析了它们对模型准确性和隐私保护的影响。
📊 实验亮点
论文在MPC中实现了不同的安全噪声采样选项,并在WAN和LAN环境中评估了它们的计算和通信成本。实验结果表明,不同的安全噪声采样技术在性能和安全性方面存在权衡。例如,某些技术可能提供更高的安全性,但需要更高的计算开销。这些实验结果为实际应用中选择合适的CPCL方案提供了有价值的参考。
🎯 应用场景
该研究成果可应用于金融、医疗等对数据隐私要求极高的领域。例如,多个银行可以联合训练反欺诈模型,而无需共享客户的敏感交易数据。医院可以共享患者的基因组数据,以开发更有效的疾病诊断和治疗方法,同时保护患者的隐私。该研究有助于推动安全可信的人工智能应用。
📄 摘要(原文)
In collaborative learning (CL), multiple parties jointly train a machine learning model on their private datasets. However, data can not be shared directly due to privacy concerns. To ensure input confidentiality, cryptographic techniques, e.g., multi-party computation (MPC), enable training on encrypted data. Yet, even securely trained models are vulnerable to inference attacks aiming to extract memorized data from model outputs. To ensure output privacy and mitigate inference attacks, differential privacy (DP) injects calibrated noise during training. While cryptography and DP offer complementary guarantees, combining them efficiently for cryptographic and differentially private CL (CPCL) is challenging. Cryptography incurs performance overheads, while DP degrades accuracy, creating a privacy-accuracy-performance trade-off that needs careful design considerations. This work systematizes the CPCL landscape. We introduce a unified framework that generalizes common phases across CPCL paradigms, and identify secure noise sampling as the foundational phase to achieve CPCL. We analyze trade-offs of different secure noise sampling techniques, noise types, and DP mechanisms discussing their implementation challenges and evaluating their accuracy and cryptographic overhead across CPCL paradigms. Additionally, we implement identified secure noise sampling options in MPC and evaluate their computation and communication costs in WAN and LAN. Finally, we propose future research directions based on identified key observations, gaps and possible enhancements in the literature.