GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation

📄 arXiv: 2405.07562v1 📥 PDF

作者: Andrey V. Galichin, Mikhail Pautov, Alexey Zhavoronkin, Oleg Y. Rogov, Ivan Oseledets

分类: cs.LG, cs.AI

发布日期: 2024-05-13


💡 一句话要点

提出GLiRA:一种基于知识蒸馏的黑盒成员推理攻击方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 成员推理攻击 知识蒸馏 黑盒攻击 隐私保护 机器学习安全

📋 核心要点

  1. 现有成员推理攻击在黑盒场景下效果不佳,难以有效推断训练数据隐私。
  2. GLiRA利用知识蒸馏,通过学习目标模型的行为来提升攻击的效率和准确性。
  3. 实验表明,GLiRA在黑盒设置下优于现有方法,显著提升了成员推理攻击的性能。

📝 摘要(中文)

深度神经网络(DNNs)在感知和控制任务中表现出卓越的性能,但其训练数据的隐私问题仍未解决,尤其是在易受成员推理攻击(MIAs)影响的情况下。本文探讨了成员推理攻击的敏感性与基于蒸馏的功能窃取攻击的脆弱性之间的联系。特别地,我们提出{GLiRA},一种基于蒸馏指导的黑盒神经网络成员推理攻击方法。我们观察到,知识蒸馏显著提高了成员推理攻击似然比的效率,尤其是在黑盒设置中,即当目标模型的架构对攻击者未知时。我们在多个图像分类数据集和模型上评估了所提出的方法,并证明了在知识蒸馏指导下的似然比攻击优于当前最先进的黑盒成员推理攻击。

🔬 方法详解

问题定义:论文旨在解决黑盒场景下的成员推理攻击问题。现有的成员推理攻击方法在目标模型架构未知的情况下,攻击效果会显著下降,难以有效推断目标模型是否使用了特定数据进行训练。这使得攻击者难以评估和利用模型的隐私泄露风险。

核心思路:论文的核心思路是利用知识蒸馏技术,通过训练一个替代模型来模拟目标模型的行为。攻击者可以使用这个替代模型来生成更有效的攻击样本,从而提高成员推理攻击的成功率。这种方法的核心在于,即使不知道目标模型的内部结构,也可以通过学习其输入输出关系来推断其训练数据信息。

技术框架:GLiRA的整体框架包含以下几个主要阶段:1) 知识蒸馏:使用与目标模型相同输入输出接口的替代模型,通过蒸馏学习目标模型的行为。2) 攻击样本生成:利用蒸馏后的替代模型,生成用于成员推理攻击的样本。3) 成员推理:使用生成的样本和目标模型的预测结果,计算似然比,判断目标样本是否属于训练集。

关键创新:GLiRA的关键创新在于将知识蒸馏技术应用于黑盒成员推理攻击。通过蒸馏学习目标模型的行为,GLiRA可以绕过对目标模型内部结构的依赖,从而在黑盒场景下实现更有效的攻击。这与传统的依赖于目标模型内部信息的白盒攻击方法有本质区别。

关键设计:在知识蒸馏阶段,论文可能采用了常见的蒸馏损失函数,如KL散度损失,来衡量替代模型和目标模型输出分布的差异。此外,可能还使用了数据增强等技术来提高替代模型的泛化能力。在成员推理阶段,论文采用了似然比检验,通过比较样本属于训练集和不属于训练集的概率,来判断样本的成员身份。具体的参数设置和网络结构可能因实验设置而异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GLiRA在多个图像分类数据集和模型上均优于现有的黑盒成员推理攻击方法。具体而言,GLiRA在攻击成功率方面取得了显著提升,证明了知识蒸馏在黑盒成员推理攻击中的有效性。论文提供了详细的实验数据,对比了GLiRA与多种基线方法的性能。

🎯 应用场景

该研究成果可应用于评估和改进机器学习模型的隐私保护能力。通过使用GLiRA等攻击方法,可以发现模型潜在的隐私泄露风险,并指导开发者采取相应的防御措施,例如差分隐私、对抗训练等,从而提高模型的安全性,保护用户数据隐私。

📄 摘要(原文)

While Deep Neural Networks (DNNs) have demonstrated remarkable performance in tasks related to perception and control, there are still several unresolved concerns regarding the privacy of their training data, particularly in the context of vulnerability to Membership Inference Attacks (MIAs). In this paper, we explore a connection between the susceptibility to membership inference attacks and the vulnerability to distillation-based functionality stealing attacks. In particular, we propose {GLiRA}, a distillation-guided approach to membership inference attack on the black-box neural network. We observe that the knowledge distillation significantly improves the efficiency of likelihood ratio of membership inference attack, especially in the black-box setting, i.e., when the architecture of the target model is unknown to the attacker. We evaluate the proposed method across multiple image classification datasets and models and demonstrate that likelihood ratio attacks when guided by the knowledge distillation, outperform the current state-of-the-art membership inference attacks in the black-box setting.