Boundary-targeted Membership Inference Attacks on Safety Classifiers

作者: Anthony Hughes, Alexander Goldberg, Prince Jha, Adam Perer, Nikolaos Aletras, Niloofar Mireshghallah

分类: cs.LG, cs.CL

发布日期: 2026-05-21

💡 一句话要点

提出边界导向的成员推理攻击，揭示安全分类器在敏感数据上的隐私风险。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 成员推理攻击 安全分类器 隐私保护 边界样本 生成式AI

📋 核心要点

安全分类器训练于敏感数据，面临成员推理攻击的隐私威胁，现有方法效果有限。
提出边界导向选择策略，针对分类器低置信度样本，放大成员推理攻击信号。
实验表明，该方法显著提升了成员推理攻击的成功率，优于现有方法3.5倍。

📝 摘要（中文）

安全分类器是生成式AI系统中的重要保障，用于过滤有害内容或识别高危用户。然而，这些模型通常在包含自残和心理健康讨论等敏感数据集上训练，引发了人们对隐私的担忧。成员推理攻击（MIAs）允许攻击者推断模型训练集中是否包含特定样本。本文提出，分类器置信度最低的样本对于攻击者推断成员身份具有重要信息价值。这反映了一种局部泛化失败，即模型依赖于记忆来解决训练集中的模糊性。为此，我们引入了一种新的边界导向选择策略，该策略识别低置信度样本，从而放大样本在训练集中的成员信号。实验结果表明，攻击者可以以5%的假阳性率恢复安全分类器标记为表示用户痛苦的19%的对话，该分类器经过微调以检测可能需要情感支持的用户。这比单独使用最先进的MIA方法攻击高出3.5倍。最后，我们描述了边界样本的特征，并表明基于内容的过滤对于保护无效，而现有的噪声策略可以有效地减轻这些样本的脆弱性。

🔬 方法详解

问题定义：论文旨在解决安全分类器在敏感数据上训练时，面临的成员推理攻击（MIA）问题。现有MIA方法通常未能充分利用分类器在“边界”样本上的脆弱性，即那些分类器置信度较低的样本。这些样本往往包含模型记忆的训练数据信息，因此更容易受到攻击。

核心思路：论文的核心思路是，通过识别并利用分类器在决策边界附近的低置信度样本，来增强成员推理攻击的效果。作者假设，模型在这些样本上的表现更多地依赖于对训练数据的记忆，而非泛化能力，因此攻击者可以更容易地推断出这些样本是否属于训练集。

技术框架：论文提出的方法主要包含以下几个阶段：1) 训练目标安全分类器：使用包含敏感信息的训练数据集训练一个安全分类器。2) 边界样本选择：使用边界导向选择策略，从数据集中选择分类器置信度较低的样本，这些样本被认为是位于决策边界附近。3) 成员推理攻击：使用选定的边界样本作为攻击目标，利用标准的成员推理攻击方法（例如，基于影子模型的攻击）来推断这些样本是否属于训练集。4) 评估攻击效果：评估攻击的准确率和假阳性率，以衡量攻击的成功程度。

关键创新：论文最重要的技术创新点在于提出了边界导向的选择策略，该策略能够有效地识别出对成员推理攻击最敏感的样本。与传统的随机选择或基于置信度的选择方法相比，该策略能够更准确地定位到模型记忆的训练数据信息，从而显著提升攻击效果。

关键设计：边界导向选择策略的关键在于如何定义和选择“低置信度”样本。论文中可能使用了特定的置信度阈值或排序方法来选择这些样本。此外，成员推理攻击的具体实现方式（例如，影子模型的训练数据规模、网络结构等）也会影响攻击效果。论文可能还探讨了不同的噪声添加策略，以评估其对边界样本的保护效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的边界导向成员推理攻击方法能够以5%的假阳性率恢复安全分类器标记为表示用户痛苦的19%的对话。相比于单独使用最先进的MIA方法，攻击成功率提升了3.5倍，证明了该方法在识别和利用边界样本进行隐私攻击方面的有效性。

🎯 应用场景

该研究成果可应用于评估和改进生成式AI系统中安全分类器的隐私保护能力。通过识别和缓解边界样本的隐私风险，可以提高安全分类器在处理敏感数据时的安全性，防止用户隐私泄露。此外，该研究也为开发更有效的隐私保护机制提供了新的思路。

📄 摘要（原文）

Safety classifiers are essential safeguards within generative AI systems, filtering harmful content or identifying at-risk users when interacting with large language models. Despite their necessity, these models are trained on sensitive datasets including discussions of self-harm and mental health, raising important, yet poorly understood, privacy concerns. Membership inference attacks (MIAs) allow adversaries to infer membership of examples used to train models. In this work, we hypothesize that identifying the examples on which the classifier is least confident are informative for an adversary to infer membership. This reflects a localized failure of generalization, where the model relies on memorization to resolve ambiguity in the training set. To investigate this, we introduce a new boundary-targeted selection strategy that identifies low confidence examples that amplify the signal of an examples membership within a training set. Our experimental results show that an adversary can recover 19\% of the conversations a safety classifier flagged as indicating user distress, at a 5\% false-positive rate, on a classifier fine-tuned for detecting a user who may require emotional support. This is $3.5$ times more than attacking using state-of-the-art MIA methods alone. Finally, we characterize the boundary laying examples and show that content-based filtering is ineffective for protection, and existing noise strategies can effectively mitigate susceptibility of these examples.

Boundary-targeted Membership Inference Attacks on Safety Classifiers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理