Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training

📄 arXiv: 2502.19726v2 📥 PDF

作者: Toan Tran, Ruixuan Liu, Li Xiong

分类: cs.LG, cs.CL

发布日期: 2025-02-27 (更新: 2025-05-31)

备注: ACL'25 (Findings)


💡 一句话要点

提出双重目的训练方法,通过token区分学习与遗忘,缓解大型语言模型中的成员推理攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 成员推理攻击 大型语言模型 隐私保护 双重目的训练 token级别学习 token级别遗忘 语言建模性能

📋 核心要点

  1. 大型语言模型存在泄露训练数据的隐私风险,成员推理攻击是主要威胁,但现有防御方法计算成本高或效果不佳。
  2. 论文提出一种基于token特性的双重目的训练方法,区分“硬token”用于学习,“记忆化token”用于遗忘,平衡效用与隐私。
  3. 实验结果表明,该方法在提供强大隐私保护的同时,还能提升语言建模性能约10%,优于现有基线方法。

📝 摘要(中文)

大型语言模型(LLMs)已成为现代自然语言处理的基石,但也带来了泄露敏感训练数据的隐私问题。成员推理攻击(MIAs)旨在推断一个样本是否包含在模型的训练数据集中,这可能成为更广泛隐私威胁的基础。现有的为传统分类模型设计的防御方法没有考虑到文本数据的序列特性。因此,它们要么需要大量的计算资源,要么无法有效地缓解LLM中的隐私风险。本文提出了一种轻量级但有效的经验隐私防御方法\methodname,通过利用token特定的特征来保护语言模型的训练数据。通过分析训练期间的token动态,我们提出了一种token选择策略,将token分为用于学习的“硬token”和用于遗忘的“记忆化token”。随后,我们的训练阶段防御优化了一种新颖的双重目的token级别损失,以实现效用和隐私之间的帕累托最优平衡。大量的实验表明,与基线方法相比,我们的方法不仅提供了强大的MIA保护,还在各种LLM架构和数据集上将语言建模性能提高了约10%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)中存在的成员推理攻击(MIAs)问题。现有的防御方法,如差分隐私等,应用于LLMs时,要么需要巨大的计算资源,要么由于忽略了文本数据的序列特性而无法有效缓解隐私风险。因此,如何在计算资源有限的情况下,有效保护LLMs的训练数据免受MIAs攻击是一个关键问题。

核心思路:论文的核心思路是利用token级别的特性,区分对模型学习贡献大的“硬token”和容易被模型记忆的“记忆化token”。通过在训练过程中对这两类token采取不同的处理方式,即学习硬token和遗忘记忆化token,从而在模型效用和隐私保护之间取得平衡。这种token级别的差异化处理能够更精细地控制模型的记忆行为,从而降低MIAs的攻击成功率。

技术框架:该方法主要包含两个阶段:token选择和双重目的训练。首先,通过分析训练过程中token的动态变化,使用特定的指标(具体指标未知)将token分为“硬token”和“记忆化token”。然后,在训练阶段,设计一个双重目的的token级别损失函数,该损失函数鼓励模型学习硬token的知识,同时抑制模型对记忆化token的记忆。整体流程是在标准语言模型训练流程中嵌入token选择和定制损失函数,实现隐私保护。

关键创新:该方法最重要的创新点在于提出了token级别的差异化隐私保护策略。与传统的模型级别或样本级别的隐私保护方法不同,该方法能够更精细地控制模型对不同类型token的学习行为,从而在保护隐私的同时,尽可能地保留模型的效用。此外,通过token选择策略,能够识别出对隐私风险贡献最大的token,从而有针对性地进行保护。

关键设计:关键的技术细节包括:1) Token选择策略的具体指标和阈值,用于区分硬token和记忆化token(具体方法未知)。2) 双重目的损失函数的设计,如何平衡学习硬token和遗忘记忆化token之间的权重(具体公式未知)。3) 训练过程中的优化策略,如何有效地训练模型以实现帕累托最优的效用和隐私平衡(具体方法未知)。这些细节决定了该方法的实际效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在各种LLM架构和数据集上,不仅提供了强大的成员推理攻击(MIA)保护,而且与基线方法相比,语言建模性能提高了约10%。这一结果突出了该方法在隐私保护和模型效用之间的良好平衡,使其成为一种有竞争力的LLM隐私保护方案。

🎯 应用场景

该研究成果可应用于各种需要保护训练数据隐私的大型语言模型应用场景,例如:医疗健康领域的电子病历分析、金融领域的客户交易数据分析、以及法律领域的合同文本分析等。通过该方法,可以在保证模型性能的同时,有效防止敏感数据泄露,提升用户对AI系统的信任度,促进LLM在隐私敏感领域的应用。

📄 摘要(原文)

Large language models (LLMs) have become the backbone of modern natural language processing but pose privacy concerns about leaking sensitive training data. Membership inference attacks (MIAs), which aim to infer whether a sample is included in a model's training dataset, can serve as a foundation for broader privacy threats. Existing defenses designed for traditional classification models do not account for the sequential nature of text data. As a result, they either require significant computational resources or fail to effectively mitigate privacy risks in LLMs. In this work, we propose \methodname, a lightweight yet effective empirical privacy defense for protecting training data of language models by leveraging token-specific characteristics. By analyzing token dynamics during training, we propose a token selection strategy that categorizes tokens into hard tokens for learning and memorized tokens for unlearning. Subsequently, our training-phase defense optimizes a novel dual-purpose token-level loss to achieve a Pareto-optimal balance between utility and privacy. Extensive experiments demonstrate that our approach not only provides strong protection against MIAs but also improves language modeling performance by around 10\% across various LLM architectures and datasets compared to the baselines.