Explaining the Model, Protecting Your Data: Revealing and Mitigating the Data Privacy Risks of Post-Hoc Model Explanations via Membership Inference
作者: Catherine Huang, Martin Pawelczyk, Himabindu Lakkaraju
分类: cs.CR, cs.LG
发布日期: 2024-07-24
备注: ICML 2024 Workshop on the Next Generation of AI Safety
💡 一句话要点
针对后验模型解释,提出基于成员推理的数据隐私风险揭示与缓解方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成员推理攻击 后验模型解释 数据隐私 差分隐私 视觉Transformer
📋 核心要点
- 现有模型解释方法在提供可解释性的同时,可能泄露训练数据中的敏感信息,尤其是在涉及个人数据的场景下,隐私保护面临挑战。
- 论文提出基于特征归因解释的成员推理攻击VAR-LRT和L1/L2-LRT,旨在评估并量化后验模型解释带来的数据隐私风险。
- 实验结果表明,所提出的攻击方法比现有方法更有效,并且通过差分隐私微调可以有效缓解这些攻击,同时保持模型精度。
📝 摘要(中文)
预测性机器学习模型越来越多地部署在涉及敏感个人数据的高风险环境中;在这些环境中,模型的可解释性和数据隐私之间存在权衡。本文着重于图像分类微调的基础模型,揭示了后验模型解释中未预见到的隐私风险,并提出了针对此类风险的缓解策略。首先,构建了VAR-LRT和L1/L2-LRT两种新的基于特征归因解释的成员推理攻击,这些攻击比现有的利用解释的攻击更有效,尤其是在低假阳性率的情况下,这使得攻击者能够自信地识别特定的训练集成员。其次,经验表明,优化的差分隐私微调能够显著降低上述攻击的成功率,同时保持较高的模型精度。对5种视觉Transformer架构、5个基准数据集、4种最先进的后验解释方法和4种隐私强度设置,系统地进行了这两种新攻击的实证研究。
🔬 方法详解
问题定义:论文旨在解决后验模型解释可能泄露训练数据隐私的问题。现有的模型解释方法,如特征归因,虽然能够帮助理解模型的决策过程,但攻击者可以利用这些解释信息来推断某个数据样本是否属于训练集,从而造成隐私泄露。现有的基于解释的成员推理攻击效果有限,无法充分揭示这种隐私风险。
核心思路:论文的核心思路是构建更有效的成员推理攻击,利用特征归因解释来区分目标样本是训练集成员还是非成员。通过分析训练集和非训练集样本在特征归因上的差异,设计能够准确识别训练集成员的攻击方法。同时,探索差分隐私微调作为一种缓解策略,在保证模型性能的同时,降低隐私泄露的风险。
技术框架:论文的技术框架主要包括以下几个部分:1) 目标模型和解释方法选择:选择图像分类的视觉Transformer模型作为目标模型,并采用多种后验解释方法,如Grad-CAM、Integrated Gradients等,生成特征归因解释。2) 成员推理攻击构建:设计VAR-LRT和L1/L2-LRT两种新的成员推理攻击方法,利用特征归因解释的统计特性来区分训练集和非训练集样本。3) 差分隐私微调:采用差分隐私技术对模型进行微调,以降低模型对训练数据的敏感性,从而缓解成员推理攻击。4) 实验评估:在多个数据集和模型上进行实验,评估攻击效果和差分隐私微调的有效性。
关键创新:论文的关键创新在于提出了VAR-LRT和L1/L2-LRT两种新的成员推理攻击方法。这些方法利用特征归因解释的方差和L1/L2范数等统计信息,能够更有效地识别训练集成员。与现有方法相比,这些攻击方法在低假阳性率下表现更佳,能够更准确地识别特定的训练集成员。
关键设计:VAR-LRT攻击基于似然比检验(LRT),比较目标样本的特征归因解释在训练集和非训练集上的方差差异。L1/L2-LRT攻击则基于L1和L2范数,衡量特征归因解释的稀疏性和强度,并利用这些信息进行成员推理。差分隐私微调采用DP-SGD算法,通过在梯度中添加噪声来保护训练数据的隐私。论文还对差分隐私的隐私预算(epsilon)进行了调整,以探索不同的隐私保护强度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的VAR-LRT和L1/L2-LRT攻击方法比现有的基于解释的成员推理攻击更有效,尤其是在低假阳性率的情况下。例如,在某些数据集上,新攻击方法可以将攻击成功率提高到现有方法的两倍以上。此外,实验还证明,通过优化差分隐私微调,可以在显著降低攻击成功率的同时,保持较高的模型精度,从而有效地缓解隐私风险。
🎯 应用场景
该研究成果可应用于评估和改进机器学习模型在处理敏感数据时的隐私保护能力。例如,在医疗图像分析、金融风险评估等领域,可以利用该方法评估模型解释带来的隐私风险,并采用差分隐私等技术进行缓解,从而在保证模型性能的同时,保护用户的数据隐私。该研究有助于推动负责任的AI发展,促进安全可靠的机器学习应用。
📄 摘要(原文)
Predictive machine learning models are becoming increasingly deployed in high-stakes contexts involving sensitive personal data; in these contexts, there is a trade-off between model explainability and data privacy. In this work, we push the boundaries of this trade-off: with a focus on foundation models for image classification fine-tuning, we reveal unforeseen privacy risks of post-hoc model explanations and subsequently offer mitigation strategies for such risks. First, we construct VAR-LRT and L1/L2-LRT, two new membership inference attacks based on feature attribution explanations that are significantly more successful than existing explanation-leveraging attacks, particularly in the low false-positive rate regime that allows an adversary to identify specific training set members with confidence. Second, we find empirically that optimized differentially private fine-tuning substantially diminishes the success of the aforementioned attacks, while maintaining high model accuracy. We carry out a systematic empirical investigation of our 2 new attacks with 5 vision transformer architectures, 5 benchmark datasets, 4 state-of-the-art post-hoc explanation methods, and 4 privacy strength settings.