Automatic Calibration for Membership Inference Attack on Large Language Models

📄 arXiv: 2505.03392v1 📥 PDF

作者: Saleh Zare Zade, Yao Qiang, Xiangyu Zhou, Hui Zhu, Mohammad Amin Roshani, Prashant Khanduri, Dongxiao Zhu

分类: cs.LG, cs.AI

发布日期: 2025-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

提出ACMIA:一种自动校准的LLM成员推断攻击方法,提升攻击可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 成员推断攻击 大型语言模型 隐私安全 自动校准 温度参数

📋 核心要点

  1. 现有成员推断攻击方法存在高误报率,或依赖额外参考模型,实用性受限。
  2. ACMIA框架通过可调温度校准LLM输出概率,增大成员与非成员的概率差距。
  3. 实验证明ACMIA在多个开源LLM上有效、鲁棒且泛化性强,优于现有方法。

📝 摘要(中文)

成员推断攻击(MIAs)最近被用于确定特定文本是否为大型语言模型(LLM)预训练数据的一部分。然而,现有方法经常错误地将非成员推断为成员,导致高误报率,或者依赖额外的参考模型进行概率校准,这限制了它们的实用性。为了克服这些挑战,我们引入了一种名为自动校准成员推断攻击(ACMIA)的新框架,该框架利用可调温度来有效地校准输出概率。这种方法受到我们在LLM预训练期间对最大似然估计的理论见解的启发。我们以三种配置引入ACMIA,旨在适应不同级别的模型访问,并增加成员和非成员之间的概率差距,从而提高成员推断的可靠性和鲁棒性。在各种开源LLM上进行的大量实验表明,我们提出的攻击非常有效、鲁棒且具有泛化性,在三个广泛使用的基准测试中超越了最先进的基线。

🔬 方法详解

问题定义:论文旨在解决现有成员推断攻击(MIA)在大型语言模型(LLM)上应用时,误报率高以及依赖额外参考模型的问题。现有方法难以准确区分LLM的训练集成员和非成员,导致攻击效果不佳,且对模型访问权限要求较高,限制了其应用范围。

核心思路:论文的核心思路是利用可调温度参数来校准LLM的输出概率,从而增大成员和非成员之间的概率差距。这种方法基于对LLM预训练过程中最大似然估计的理论理解,认为通过调整温度可以更有效地识别训练数据中的样本。

技术框架:ACMIA框架包含三个主要配置,以适应不同级别的模型访问权限。整体流程包括:1) 获取目标LLM的输出概率;2) 使用可调温度参数对概率进行校准;3) 基于校准后的概率,判断输入样本是否为LLM的训练集成员。具体配置包括针对不同访问权限的变体,例如需要访问模型内部参数或仅能进行黑盒查询的情况。

关键创新:ACMIA的关键创新在于其自动校准机制,该机制通过可调温度参数来优化LLM的输出概率,无需额外的参考模型。与现有方法相比,ACMIA更加高效、实用,并且能够显著提高成员推断的准确性和鲁棒性。此外,ACMIA的设计考虑了不同级别的模型访问权限,使其能够应用于更广泛的场景。

关键设计:ACMIA的关键设计在于温度参数的选择和校准策略。论文可能采用了某种优化算法来自动调整温度参数,以最大化成员和非成员之间的概率差距。具体的损失函数和网络结构(如果涉及)可能与最大似然估计相关,并针对成员推断任务进行了优化。此外,论文可能还考虑了不同类型的LLM和数据集,并针对性地调整了ACMIA的参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ACMIA在多个开源LLM上显著优于现有成员推断攻击方法。具体而言,ACMIA在三个广泛使用的基准测试中均取得了最先进的性能,表明其具有高度的有效性、鲁棒性和泛化能力。具体的性能提升数据(如准确率、召回率等)需要在论文中查找。

🎯 应用场景

ACMIA可应用于评估和增强大型语言模型的隐私安全性,帮助开发者识别和缓解潜在的成员推断攻击风险。该研究对于保护用户数据隐私、防止模型被恶意利用具有重要意义,并可能推动更安全的LLM开发和部署。

📄 摘要(原文)

Membership Inference Attacks (MIAs) have recently been employed to determine whether a specific text was part of the pre-training data of Large Language Models (LLMs). However, existing methods often misinfer non-members as members, leading to a high false positive rate, or depend on additional reference models for probability calibration, which limits their practicality. To overcome these challenges, we introduce a novel framework called Automatic Calibration Membership Inference Attack (ACMIA), which utilizes a tunable temperature to calibrate output probabilities effectively. This approach is inspired by our theoretical insights into maximum likelihood estimation during the pre-training of LLMs. We introduce ACMIA in three configurations designed to accommodate different levels of model access and increase the probability gap between members and non-members, improving the reliability and robustness of membership inference. Extensive experiments on various open-source LLMs demonstrate that our proposed attack is highly effective, robust, and generalizable, surpassing state-of-the-art baselines across three widely used benchmarks. Our code is available at: \href{https://github.com/Salehzz/ACMIA}{\textcolor{blue}{Github}}.