Measuring memorization in language models via probabilistic extraction

📄 arXiv: 2410.19482v3 📥 PDF

作者: Jamie Hayes, Marika Swanberg, Harsh Chaudhari, Itay Yona, Ilia Shumailov, Milad Nasr, Christopher A. Choquette-Choo, Katherine Lee, A. Feder Cooper

分类: cs.LG

发布日期: 2024-10-25 (更新: 2025-03-20)

备注: NAACL 25


💡 一句话要点

提出概率可发现抽取方法,更可靠地评估语言模型中的记忆化风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 记忆化 数据抽取 概率评估 信息安全

📋 核心要点

  1. 现有可发现抽取方法依赖贪婪采样,忽略了非贪婪采样中LLM输出的不确定性,导致评估结果不可靠。
  2. 论文提出概率可发现抽取,通过多次查询量化目标序列的抽取概率,从而更准确地评估记忆化风险。
  3. 实验表明,概率可发现抽取能够提供比传统方法更细致的抽取风险信息,适用于不同模型和采样策略。

📝 摘要(中文)

大型语言模型(LLM)容易记忆训练数据,引发了生成时可能泄露敏感信息的担忧。可发现抽取是衡量此问题最常用的方法:将训练样本分为前缀和后缀,然后用前缀提示LLM,如果LLM使用贪婪采样生成匹配的后缀,则认为该样本是可抽取的。这种定义只能确定单个查询是否成功抽取。虽然计算效率高,但我们表明这种定义是不可靠的,因为它没有考虑到更真实的(非贪婪)采样方案中存在的不确定性,在这种方案中,LLM为同一提示产生一系列输出。我们引入了概率可发现抽取,它无需额外成本,通过考虑多个查询来量化抽取目标序列的概率,从而放宽了可发现抽取的限制。我们评估了不同模型、采样方案和训练数据重复次数下的概率度量,发现与传统的可发现抽取相比,该度量提供了关于抽取风险的更细致的信息。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)记忆训练数据的问题,特别是评估LLM在生成过程中泄露敏感信息的风险。现有的可发现抽取方法主要依赖于贪婪采样,即每次只选择概率最高的token。这种方法的痛点在于,它忽略了LLM在实际应用中更常用的非贪婪采样方法(如top-k采样、nucleus采样等)所带来的输出不确定性,导致评估结果可能低估了真实的记忆化风险。

核心思路:论文的核心思路是通过引入概率的视角来评估抽取风险。不再简单地判断一个样本是否“可抽取”,而是量化抽取目标序列的概率。具体来说,对于给定的前缀,通过多次查询LLM,观察目标后缀出现的频率,以此估计抽取该后缀的概率。这种方法考虑了非贪婪采样带来的输出多样性,从而更准确地反映了LLM的记忆化程度。

技术框架:论文提出的概率可发现抽取方法在传统可发现抽取的基础上进行了扩展。其主要流程如下:1) 将训练数据分割为前缀和后缀;2) 使用前缀作为提示,多次查询LLM,采用非贪婪采样方法生成多个输出序列;3) 统计目标后缀在所有生成序列中出现的频率,以此作为抽取概率的估计;4) 使用该概率值来评估LLM的记忆化风险。

关键创新:论文最重要的技术创新点在于将概率的视角引入到可发现抽取的评估中。与传统的二元判断(可抽取/不可抽取)不同,概率可发现抽取提供了一个连续的风险评估指标,能够更细致地反映LLM的记忆化程度。此外,该方法无需对LLM进行任何修改或训练,可以直接应用于现有的模型和采样策略。

关键设计:论文的关键设计在于如何有效地估计抽取概率。具体来说,需要选择合适的采样方法(如top-k采样、nucleus采样等)以及采样次数。采样次数越多,概率估计越准确,但计算成本也越高。此外,还需要考虑如何处理生成序列中的噪声,例如通过设置阈值来过滤掉低概率的后缀。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了概率可发现抽取方法相比传统可发现抽取的优越性。实验结果表明,概率方法能够更准确地反映不同模型、采样策略和训练数据重复次数下的抽取风险。例如,在相同的模型和数据集上,概率方法能够检测到传统方法无法识别的记忆化现象,从而提供更全面的风险评估。

🎯 应用场景

该研究成果可应用于评估和缓解大型语言模型中的数据泄露风险。例如,可以利用概率可发现抽取方法来识别模型中容易被提取的敏感数据,从而采取相应的措施,如数据脱敏、模型微调等,以提高模型的安全性。此外,该方法还可以用于评估不同训练策略和模型架构对记忆化风险的影响,从而指导模型的设计和训练。

📄 摘要(原文)

Large language models (LLMs) are susceptible to memorizing training data, raising concerns about the potential extraction of sensitive information at generation time. Discoverable extraction is the most common method for measuring this issue: split a training example into a prefix and suffix, then prompt the LLM with the prefix, and deem the example extractable if the LLM generates the matching suffix using greedy sampling. This definition yields a yes-or-no determination of whether extraction was successful with respect to a single query. Though efficient to compute, we show that this definition is unreliable because it does not account for non-determinism present in more realistic (non-greedy) sampling schemes, for which LLMs produce a range of outputs for the same prompt. We introduce probabilistic discoverable extraction, which, without additional cost, relaxes discoverable extraction by considering multiple queries to quantify the probability of extracting a target sequence. We evaluate our probabilistic measure across different models, sampling schemes, and training-data repetitions, and find that this measure provides more nuanced information about extraction risk compared to traditional discoverable extraction.