What Should LLMs Forget? Quantifying Personal Data in LLMs for Right-to-Be-Forgotten Requests
作者: Dimitri Staufer
分类: cs.CL, cs.CY, cs.LG
发布日期: 2025-07-15
备注: 16 pages, 3 figures. Accepted at the 7th Workshop on eXplainable Knowledge Discovery in Data Mining (XKDD 2025), ECML PKDD 2025, Porto, Portugal
💡 一句话要点
提出WikiMem数据集和模型无关指标,量化LLM中个人数据,支持被遗忘权请求
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 隐私保护 被遗忘权 机器遗忘 个人数据 WikiMem数据集 负对数似然
📋 核心要点
- 现有机器遗忘方法依赖已知待遗忘数据,缺乏识别LLM中存储的个体-事实关联的能力,限制了被遗忘权的应用。
- 提出WikiMem数据集和模型无关的量化指标,通过比较ground-truth和反事实,评估LLM对个体信息的记忆程度。
- 实验表明,LLM对个人信息的记忆程度与该人在网络上的存在感和模型规模正相关,为动态构建遗忘集奠定基础。
📝 摘要(中文)
大型语言模型(LLM)可能记忆并泄露个人信息,引发了对欧盟GDPR合规性的担忧,特别是关于被遗忘权(RTBF)。现有的机器遗忘方法假设要遗忘的数据是已知的,但没有解决如何识别模型中存储的哪些个体-事实关联。隐私审计技术通常在群体层面操作或针对一小部分标识符,限制了其在个体层面数据查询中的适用性。我们引入了WikiMem,一个包含超过5000个自然语言canaries的数据集,涵盖来自Wikidata的243个人类相关属性,以及一个模型无关的指标来量化LLM中的人类-事实关联。我们的方法通过校准的负对数似然,在释义提示中将ground-truth值与反事实进行比较排序。我们评估了15个LLM(4.1亿-700亿参数)中的200个人,表明记忆与主题网络存在和模型规模相关。我们为在LLM中识别记忆的个人数据奠定了基础,从而能够动态构建机器遗忘和RTBF请求的遗忘集。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中个人数据的识别和量化问题,以便响应欧盟GDPR中的被遗忘权(RTBF)请求。现有方法要么假设已知需要遗忘的数据,要么只能在群体层面进行隐私审计,无法有效识别和量化LLM中存储的个体-事实关联,从而无法动态构建用于机器遗忘的forget set。
核心思路:论文的核心思路是构建一个包含大量个体-事实关联的数据集(WikiMem),并设计一个模型无关的指标,通过比较LLM对ground-truth事实和反事实的预测概率,来量化LLM对特定个体信息的记忆程度。这种方法允许在个体层面评估LLM的隐私风险,并为动态构建遗忘集提供依据。
技术框架:该方法主要包含以下几个阶段: 1. WikiMem数据集构建:从Wikidata中提取243个人类相关属性,并为每个属性生成多个自然语言canaries(提示),形成包含超过5000个提示的数据集。 2. 提示生成与释义:针对每个个体和属性,生成多个释义的提示,以增加评估的鲁棒性。 3. ground-truth和反事实生成:为每个提示生成对应的ground-truth答案和多个反事实答案。 4. 负对数似然计算:使用LLM对每个提示及其对应的ground-truth和反事实答案进行预测,计算负对数似然(NLL)。 5. 记忆程度量化:通过比较ground-truth和反事实答案的NLL,计算一个量化指标,用于评估LLM对特定个体信息的记忆程度。
关键创新:该论文的关键创新在于: 1. WikiMem数据集:首次构建了一个大规模的、包含个体-事实关联的自然语言数据集,专门用于评估LLM的隐私风险。 2. 模型无关的量化指标:提出了一种模型无关的指标,可以用于量化LLM对特定个体信息的记忆程度,而无需依赖特定的模型架构或训练方法。 3. 个体层面的隐私评估:实现了在个体层面评估LLM的隐私风险,为动态构建遗忘集提供了依据。
关键设计: 1. 负对数似然(NLL):使用NLL作为评估LLM预测概率的指标,NLL越低表示模型对该答案的预测越准确。 2. 反事实答案:通过生成多个反事实答案,可以更准确地评估LLM对ground-truth事实的记忆程度。 3. 提示释义:通过生成多个释义的提示,可以增加评估的鲁棒性,减少提示对评估结果的影响。 4. 校准:使用校准的负对数似然来提高评估的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM对个人信息的记忆程度与该人在网络上的存在感和模型规模正相关。具体来说,模型规模越大,记忆的个人信息越多。此外,该研究还发现,某些属性(如出生日期)比其他属性(如职业)更容易被LLM记忆。该研究在15个LLM(4.1亿-700亿参数)和200个人上进行了评估,验证了方法的有效性。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的隐私保护能力,帮助企业和研究机构更好地遵守GDPR等隐私法规。通过识别和量化LLM中存储的个人数据,可以动态构建遗忘集,实现更有效的机器遗忘,降低数据泄露风险。此外,该方法还可以用于评估不同LLM的隐私风险,为用户选择更安全的模型提供参考。
📄 摘要(原文)
Large Language Models (LLMs) can memorize and reveal personal information, raising concerns regarding compliance with the EU's GDPR, particularly the Right to Be Forgotten (RTBF). Existing machine unlearning methods assume the data to forget is already known but do not address how to identify which individual-fact associations are stored in the model. Privacy auditing techniques typically operate at the population level or target a small set of identifiers, limiting applicability to individual-level data inquiries. We introduce WikiMem, a dataset of over 5,000 natural language canaries covering 243 human-related properties from Wikidata, and a model-agnostic metric to quantify human-fact associations in LLMs. Our approach ranks ground-truth values against counterfactuals using calibrated negative log-likelihood across paraphrased prompts. We evaluate 200 individuals across 15 LLMs (410M-70B parameters), showing that memorization correlates with subject web presence and model scale. We provide a foundation for identifying memorized personal data in LLMs at the individual level, enabling the dynamic construction of forget sets for machine unlearning and RTBF requests.