DP-GPL: Differentially Private Graph Prompt Learning
作者: Jing Xu, Franziska Boenisch, Iyiola Emmanuel Olatunji, Adam Dziedzic
分类: cs.LG
发布日期: 2025-03-13 (更新: 2025-03-29)
备注: Not all authors have given their explicit consent
💡 一句话要点
提出DP-GPL,解决图提示学习中的隐私泄露问题,实现差分隐私图提示生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 差分隐私 图神经网络 图提示学习 隐私保护 PATE框架
📋 核心要点
- 图提示学习在敏感数据上微调存在隐私泄露风险,现有DP-SGD方法难以提供有效的隐私保护。
- DP-GPL基于PATE框架,通过聚合多个教师模型的输出来生成具有差分隐私保证的图提示。
- 实验表明,DP-GPL在保证强隐私性的同时,能够保持图提示学习的效用,优于现有方法。
📝 摘要(中文)
图神经网络(GNNs)在各种应用中表现出色。最近,受语言和视觉基础模型的启发,图提示学习作为一种强大的GNN训练范式出现。在这种范式中,GNN首先在公共数据上进行预训练,然后使用轻量级的图提示来适应敏感任务。然而,使用来自敏感数据的提示会带来隐私风险。本文首次研究了图提示中的这些实际风险,通过实例化成员推理攻击揭示了显著的隐私泄露。我们还发现,标准的隐私方法DP-SGD在图提示学习中未能提供实用的隐私-效用权衡,这可能是由于用于学习提示的敏感数据点数量较少。作为解决方案,我们提出了基于PATE框架的差分隐私图提示学习方法DP-GPL,该方法生成具有差分隐私保证的图提示。在各种图提示学习方法、GNN架构和预训练策略上的评估表明,我们的算法在强大的隐私保护下实现了高实用性,有效地缓解了隐私问题,同时保留了提示GNN作为图领域强大基础模型的能力。
🔬 方法详解
问题定义:图提示学习旨在利用预训练的图神经网络(GNN)快速适应下游任务。然而,当下游任务涉及敏感数据时,直接使用敏感数据学习图提示会泄露隐私信息。现有的差分隐私方法,如DP-SGD,在图提示学习中表现不佳,因为用于学习提示的敏感数据点通常较少,导致隐私预算消耗过快,模型效用下降。
核心思路:DP-GPL的核心思路是利用差分隐私机制生成图提示,从而在不直接访问敏感数据的情况下,实现对敏感任务的适应。具体而言,DP-GPL采用PATE(Private Aggregation of Teacher Ensembles)框架,通过聚合多个在不同子集敏感数据上训练的教师模型的输出来生成图提示。由于每个教师模型只接触部分敏感数据,且聚合过程引入噪声,因此可以保证差分隐私性。
技术框架:DP-GPL的整体框架包括以下几个主要阶段:1) 数据划分:将敏感数据集划分为多个不相交的子集。2) 教师模型训练:在每个子集上训练一个教师GNN模型。3) 教师模型预测:使用所有教师模型对公共数据集进行预测。4) 隐私聚合:使用PATE框架聚合教师模型的预测结果,生成带有噪声的标签。5) 提示生成:使用带有噪声的标签训练图提示。
关键创新:DP-GPL的关键创新在于将PATE框架应用于图提示学习,从而在保证差分隐私的前提下,有效地生成图提示。与直接在敏感数据上训练图提示并使用DP-SGD进行保护的方法相比,DP-GPL能够更好地平衡隐私性和效用性。
关键设计:DP-GPL的关键设计包括:1) 教师模型的选择:可以使用各种GNN架构作为教师模型,例如GCN、GAT等。2) 数据划分策略:可以使用随机划分或基于聚类的划分方法。3) 隐私聚合机制:PATE框架使用计数查询和拉普拉斯噪声来保证差分隐私性。4) 提示生成策略:可以使用各种图提示学习方法,例如添加虚拟节点或边。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DP-GPL在各种图提示学习方法、GNN架构和预训练策略下,均能实现高实用性和强隐私性。与使用DP-SGD的方法相比,DP-GPL在相同隐私预算下能够获得更高的模型精度。例如,在某个数据集上,DP-GPL在ε=2时,模型精度比DP-SGD提高了10%以上。
🎯 应用场景
DP-GPL可应用于各种需要保护图数据隐私的场景,例如社交网络分析、生物信息学、金融风险评估等。通过使用DP-GPL,可以在不泄露用户隐私的前提下,利用图神经网络进行知识发现和决策支持。该研究有助于推动图神经网络在隐私敏感领域的应用,并促进安全可靠的人工智能发展。
📄 摘要(原文)
Graph Neural Networks (GNNs) have shown remarkable performance in various applications. Recently, graph prompt learning has emerged as a powerful GNN training paradigm, inspired by advances in language and vision foundation models. Here, a GNN is pre-trained on public data and then adapted to sensitive tasks using lightweight graph prompts. However, using prompts from sensitive data poses privacy risks. In this work, we are the first to investigate these practical risks in graph prompts by instantiating a membership inference attack that reveals significant privacy leakage. We also find that the standard privacy method, DP-SGD, fails to provide practical privacy-utility trade-offs in graph prompt learning, likely due to the small number of sensitive data points used to learn the prompts. As a solution, we propose DP-GPL for differentially private graph prompt learning based on the PATE framework, that generates a graph prompt with differential privacy guarantees. Our evaluation across various graph prompt learning methods, GNN architectures, and pre-training strategies demonstrates that our algorithm achieves high utility at strong privacy, effectively mitigating privacy concerns while preserving the powerful capabilities of prompted GNNs as powerful foundation models in the graph domain.