Window-based Membership Inference Attacks Against Fine-tuned Large Language Models
作者: Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li
分类: cs.CL, cs.AI, cs.CR
发布日期: 2026-01-06
备注: Code is available at https://github.com/Stry233/WBC/. This arXiv version corresponds to the accepted paper and includes the full experimental results
💡 一句话要点
提出基于窗口比较的WBC方法,提升针对微调大语言模型的成员推理攻击效果。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成员推理攻击 大语言模型 隐私泄露 滑动窗口 局部记忆
📋 核心要点
- 现有成员推理攻击依赖全局平均损失,忽略了局部记忆信号,导致攻击效果不佳。
- WBC方法通过滑动窗口比较目标模型和参考模型的损失,聚合局部证据进行成员推理。
- 实验表明,WBC在多个数据集上显著优于现有方法,提升了成员推理攻击的检测率。
📝 摘要(中文)
针对大语言模型(LLMs)的成员推理攻击(MIAs)通常依赖于全局信号(如平均损失)来识别训练数据。然而,这种方法会稀释记忆的细微、局部信号,从而降低攻击效果。我们挑战了这种全局平均范式,认为成员信号在局部上下文中更为显著。我们提出了WBC(Window-Based Comparison),它通过滑动窗口方法和基于符号的聚合来利用这一洞察。我们的方法在文本序列上滑动不同大小的窗口,每个窗口基于目标模型和参考模型之间的损失比较,对成员身份进行二元投票。通过对几何间隔的窗口大小进行投票集成,我们捕获从token级别到短语级别结构的记忆模式。在11个数据集上的大量实验表明,WBC显著优于已建立的基线,在低假阳性阈值下实现了更高的AUC分数和2-3倍的检测率提升。我们的研究结果表明,聚合局部证据比全局平均更有效,揭示了微调LLM中存在的严重隐私漏洞。
🔬 方法详解
问题定义:针对微调的大语言模型,现有的成员推理攻击方法主要依赖于全局平均损失,这种方法忽略了模型在训练数据上可能存在的局部记忆特征。全局平均损失会稀释这些局部信号,导致攻击效果不佳,难以有效识别训练数据。因此,如何更有效地利用模型在局部上下文中的记忆信息,是提升成员推理攻击效果的关键问题。
核心思路:论文的核心思路是认为成员信息更多地体现在局部上下文中,而非全局平均水平。因此,通过分析文本序列的局部窗口,比较目标模型和参考模型在这些窗口上的损失差异,可以更准确地判断该序列是否为训练数据。这种局部比较能够捕捉到模型在训练过程中对特定短语或token的记忆模式。
技术框架:WBC方法的核心流程如下:1) 滑动窗口:在文本序列上滑动不同大小的窗口。2) 损失计算:计算目标模型和参考模型在每个窗口上的损失。3) 二元投票:基于损失比较结果,每个窗口对成员身份进行二元投票(是或否)。4) 投票集成:对不同大小窗口的投票结果进行集成,得到最终的成员推理结果。通过几何间隔的窗口大小,可以捕获不同粒度的记忆模式。
关键创新:WBC方法的关键创新在于其基于局部窗口的比较和投票机制。与传统的全局平均方法不同,WBC能够捕捉到模型在局部上下文中的记忆特征,从而更有效地进行成员推理攻击。此外,通过集成不同大小窗口的投票结果,WBC能够捕获从token级别到短语级别的多种记忆模式。
关键设计:WBC方法的关键设计包括:1) 窗口大小的选择:使用几何间隔的窗口大小,以捕获不同粒度的记忆模式。2) 损失比较方法:基于目标模型和参考模型在窗口上的损失差异进行二元投票。3) 投票集成策略:采用简单的投票集成方法,将不同窗口的投票结果进行汇总,得到最终的成员推理结果。论文中具体使用的损失函数和模型结构取决于实验设置,但WBC方法本身具有通用性,可以应用于不同的损失函数和模型结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,WBC方法在11个数据集上显著优于现有的成员推理攻击方法。在低假阳性阈值下,WBC的检测率提升了2-3倍,AUC分数也得到了显著提高。这些结果表明,基于局部窗口的比较和投票机制能够更有效地捕捉到模型在训练数据上的记忆特征,从而提升成员推理攻击的效果。
🎯 应用场景
该研究成果可应用于评估和提升大语言模型的隐私保护能力。通过WBC方法,可以更有效地检测模型是否存在过度记忆训练数据的问题,从而指导模型开发者采取相应的措施,例如差分隐私训练、数据增强等,以降低模型泄露隐私的风险。此外,该方法也可以用于评估不同隐私保护技术的有效性。
📄 摘要(原文)
Most membership inference attacks (MIAs) against Large Language Models (LLMs) rely on global signals, like average loss, to identify training data. This approach, however, dilutes the subtle, localized signals of memorization, reducing attack effectiveness. We challenge this global-averaging paradigm, positing that membership signals are more pronounced within localized contexts. We introduce WBC (Window-Based Comparison), which exploits this insight through a sliding window approach with sign-based aggregation. Our method slides windows of varying sizes across text sequences, with each window casting a binary vote on membership based on loss comparisons between target and reference models. By ensembling votes across geometrically spaced window sizes, we capture memorization patterns from token-level artifacts to phrase-level structures. Extensive experiments across eleven datasets demonstrate that WBC substantially outperforms established baselines, achieving higher AUC scores and 2-3 times improvements in detection rates at low false positive thresholds. Our findings reveal that aggregating localized evidence is fundamentally more effective than global averaging, exposing critical privacy vulnerabilities in fine-tuned LLMs.