Semantic Membership Inference Attack against Large Language Models

📄 arXiv: 2406.10218v1 📥 PDF

作者: Hamid Mozaffari, Virendra J. Marathe

分类: cs.LG

发布日期: 2024-06-14


💡 一句话要点

提出语义成员推理攻击SMIA,提升大型语言模型成员推断攻击效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 成员推理攻击 大型语言模型 隐私安全 语义扰动 神经网络

📋 核心要点

  1. 现有成员推理攻击(MIA)在大型语言模型上效果有限,难以有效区分训练集成员和非成员。
  2. SMIA的核心思想是利用输入样本及其扰动的语义信息,分析目标模型在这些扰动上的行为差异。
  3. 实验表明,SMIA在Pythia和GPT-Neo模型上显著优于现有MIA方法,AUC-ROC指标提升明显。

📝 摘要(中文)

本文提出了一种新的成员推理攻击方法,称为语义成员推理攻击(SMIA),旨在通过利用输入及其扰动的语义内容来增强成员推理攻击(MIA)的性能。SMIA训练一个神经网络来分析目标模型在扰动输入上的行为,从而有效地捕捉成员和非成员之间输出概率分布的差异。在Wikipedia数据集上,针对Pythia和GPT-Neo模型家族进行了全面的评估。结果表明,SMIA显著优于现有的MIA;例如,在Pythia-12B上,SMIA实现了67.39%的AUC-ROC,而第二好的攻击方法仅为58.90%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的成员推理攻击(MIA)问题。现有的MIA方法在LLM上表现不佳,难以有效利用模型输出的细微差别来判断样本是否属于训练集。这些方法通常忽略了输入样本的语义信息,以及模型在语义相关的扰动输入上的行为模式。

核心思路:SMIA的核心思路是利用输入样本及其扰动的语义信息,通过分析目标模型在这些扰动上的输出概率分布变化,来区分成员和非成员。该方法假设,模型对于训练集中的样本及其语义扰动会表现出与非成员样本不同的行为模式。

技术框架:SMIA包含以下主要阶段:1) 输入扰动:对输入样本进行语义相关的扰动,生成多个扰动样本。2) 模型预测:将原始样本和扰动样本输入目标LLM,获取相应的输出概率分布。3) 攻击模型训练:训练一个神经网络(攻击模型),输入为目标模型在原始样本和扰动样本上的输出概率分布,输出为该样本是否为训练集成员的预测。

关键创新:SMIA的关键创新在于利用了输入样本的语义信息和扰动,通过分析目标模型在这些扰动上的行为变化来提升MIA的性能。与传统的MIA方法相比,SMIA能够更有效地捕捉成员和非成员之间的细微差别。

关键设计:SMIA的关键设计包括:1) 语义扰动策略:如何生成与原始样本语义相关的扰动样本,例如通过同义词替换、句子改写等方法。2) 攻击模型结构:选择合适的神经网络结构来学习目标模型在不同输入上的输出概率分布模式。3) 损失函数设计:设计合适的损失函数来训练攻击模型,例如交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SMIA在Pythia和GPT-Neo模型家族上进行了广泛的实验评估。结果表明,SMIA显著优于现有的MIA方法。例如,在Pythia-12B模型上,SMIA实现了67.39%的AUC-ROC,而第二好的攻击方法仅为58.90%,提升了约8.5个百分点。实验结果表明,SMIA能够更有效地利用语义信息来提升MIA的性能。

🎯 应用场景

SMIA的研究成果可应用于评估和提升大型语言模型的隐私安全性。通过使用SMIA,可以更有效地检测LLM是否存在过度拟合训练数据的问题,并指导开发者设计更具隐私保护能力的模型训练方法,例如差分隐私训练、知识蒸馏等。此外,该方法也可用于评估不同隐私保护技术的有效性。

📄 摘要(原文)

Membership Inference Attacks (MIAs) determine whether a specific data point was included in the training set of a target model. In this paper, we introduce the Semantic Membership Inference Attack (SMIA), a novel approach that enhances MIA performance by leveraging the semantic content of inputs and their perturbations. SMIA trains a neural network to analyze the target model's behavior on perturbed inputs, effectively capturing variations in output probability distributions between members and non-members. We conduct comprehensive evaluations on the Pythia and GPT-Neo model families using the Wikipedia dataset. Our results show that SMIA significantly outperforms existing MIAs; for instance, SMIA achieves an AUC-ROC of 67.39% on Pythia-12B, compared to 58.90% by the second-best attack.