Secure and Privacy-Preserving Vertical Federated Learning

📄 arXiv: 2604.13474v1 📥 PDF

作者: Shan Jin, Sai Rahul Rachuri, Yizhen Wang, Anderson C. A. Nascimento, Yiwei Cai

分类: cs.CR, cs.AI, cs.DC

发布日期: 2026-04-15


💡 一句话要点

提出一种安全且保护隐私的垂直联邦学习框架,适用于不同部署场景。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 垂直联邦学习 隐私保护 安全多方计算 差分隐私 全局-局部模型 数据安全 联邦学习

📋 核心要点

  1. 垂直联邦学习中,特征分割在不同客户端,标签并非共享,存在隐私泄露风险。
  2. 将聚合器角色分配到多个服务器,利用安全多方计算和差分隐私实现隐私保护。
  3. 优化的全局-局部模型更新策略,显著减少了多方计算的计算和通信开销。

📝 摘要(中文)

本文提出了一种新颖的端到端隐私保护框架,该框架通过三个高效协议实例化,适用于联邦学习中垂直分割场景的不同部署,涵盖输入和输出隐私。在该场景中,特征在客户端之间分割,标签并非所有参与方共享。该框架通过将联邦学习中聚合器的角色分配到多个服务器,并使它们运行安全多方计算(MPC)协议来执行模型和特征聚合,并对最终发布的模型应用差分隐私(DP)。与客户端将整个训练委托给服务器之间运行MPC的朴素解决方案不同,我们优化的解决方案支持纯全局以及具有隐私保护的全局-局部模型更新,从而大大减少了使用多方计算执行的计算和通信量。实验结果也表明了我们协议的有效性。

🔬 方法详解

问题定义:论文旨在解决垂直联邦学习(VFL)中的隐私保护问题。在VFL中,不同参与者拥有不同的特征,但并非所有参与者都拥有标签。现有的VFL方法可能存在隐私泄露风险,例如通过共享中间结果或模型参数推断出敏感信息。因此,如何在保护各方数据隐私的前提下,高效地进行VFL训练是一个关键挑战。

核心思路:论文的核心思路是将联邦学习中的聚合器角色分散到多个服务器上,并利用安全多方计算(MPC)协议来执行模型和特征的聚合。同时,为了进一步保护输出隐私,对最终发布的模型应用差分隐私(DP)技术。这种设计旨在防止单个服务器或参与者获取其他参与者的敏感信息。

技术框架:该框架包含多个客户端和多个服务器。客户端拥有各自的特征数据,服务器负责进行模型和特征的聚合。训练过程大致如下:1) 客户端将本地计算结果(例如梯度)发送给服务器;2) 服务器之间运行MPC协议,安全地聚合来自客户端的信息;3) 服务器对聚合后的模型应用差分隐私;4) 服务器将更新后的模型参数发送给客户端。该框架支持纯全局模型更新和全局-局部模型更新两种模式。

关键创新:论文的关键创新在于提出了一个优化的全局-局部模型更新策略。与将整个训练过程都放在MPC中运行的朴素方法相比,该策略显著减少了MPC的计算和通信开销。具体来说,客户端首先在本地进行一定轮次的训练,然后将本地更新发送给服务器进行聚合。这种方式减少了服务器之间需要进行MPC的次数,从而提高了效率。

关键设计:论文中涉及的关键设计包括:1) MPC协议的选择:根据不同的部署场景,可以选择不同的MPC协议,例如基于秘密共享或同态加密的协议;2) 差分隐私的参数设置:需要仔细选择差分隐私的参数(例如隐私预算),以在隐私保护和模型性能之间取得平衡;3) 全局-局部更新的比例:需要根据具体的数据集和模型选择合适的全局和局部更新比例,以获得最佳的性能。

📊 实验亮点

实验结果表明,该框架在保证隐私的前提下,能够有效地进行模型训练。与朴素的MPC方法相比,优化的全局-局部更新策略显著减少了计算和通信开销。具体性能数据未知,但摘要中提到“实验结果也表明了我们协议的有效性”。

🎯 应用场景

该研究成果可应用于金融、医疗等数据敏感领域。例如,不同银行可以利用该框架联合训练信用风险模型,而无需共享客户的详细交易数据。不同医院可以联合训练疾病诊断模型,而无需共享患者的病历信息。这有助于打破数据孤岛,促进跨机构的数据合作,同时保护用户隐私。

📄 摘要(原文)

We propose a novel end-to-end privacy-preserving framework, instantiated by three efficient protocols for different deployment scenarios, covering both input and output privacy, for the vertically split scenario in federated learning (FL), where features are split across clients and labels are not shared by all parties. We do so by distributing the role of the aggregator in FL into multiple servers and having them run secure multiparty computation (MPC) protocols to perform model and feature aggregation and apply differential privacy (DP) to the final released model. While a naive solution would have the clients delegating the entirety of training to run in MPC between the servers, our optimized solution, which supports purely global and also global-local models updates with privacy-preserving, drastically reduces the amount of computation and communication performed using multiparty computation. The experimental results also show the effectiveness of our protocols.