LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs

📄 arXiv: 2606.06286v1 📥 PDF

作者: Gianluca Barmina, Peter Schneider-Kamp, Lukas Galke Poech

分类: cs.CL, cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出PropMe框架以评估大型语言模型的记忆能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 记忆评估 倾向性意识 数据泄漏 模型训练

📋 核心要点

  1. 现有的记忆评估方法主要关注模型在被强迫情况下的表现,未能反映其在普通使用中的记忆能力。
  2. 本文提出了PropMe框架,通过倾向性意识的评估方法,结合前缀攻击与非对抗性评估,提供更全面的记忆评估。
  3. 实验结果显示,前缀攻击引发的记忆信号显著强于普通提示,且DFM Decoder在后续训练中表现出较低的记忆倾向。

📝 摘要(中文)

大型语言模型能够重现训练数据,但现有的记忆评估主要测量模型在被强迫情况下的表现,而非在普通使用中的表现。本文提出了PropMe,一个基于倾向性意识的记忆评估框架,通过对比前缀攻击与非对抗性评估,提出了一种度量转换方法,生成倾向性度量。我们还引入了SimpleTrace,一个轻量级追踪管道,能够将模型生成的内容确定性地归因于大规模训练语料,并计算逐字、近乎逐字和倾向性转换的记忆度量。对两个完全开放的模型(Comma和DFM Decoder)在两个数据集(Common Pile和Dynaword)上的评估显示,能力与倾向性之间存在显著差距,前缀攻击引发的记忆信号明显强于一般或特定数据集的提示,而倾向性得分总体较低。我们的结果表明,记忆审计应同时报告最坏情况下的可提取性和普通泄漏倾向,以全面了解这一现象。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在普通使用中记忆训练数据的评估问题。现有方法主要集中在模型在被强迫情况下的记忆能力,未能真实反映模型在实际应用中的表现。

核心思路:论文提出了PropMe框架,结合倾向性意识的评估方法,通过对比前缀攻击与非对抗性评估,提供了一种新的记忆评估视角,强调在普通使用场景下的记忆能力。

技术框架:PropMe框架包括两个主要模块:1) 倾向性度量生成,通过度量转换方法将现有评估函数转化为倾向性度量;2) SimpleTrace追踪管道,基于infini-gram技术,能够将模型生成内容与训练语料关联,并计算不同类型的记忆度量。

关键创新:最重要的技术创新在于提出了倾向性意识的评估方法,能够在普通使用场景下更准确地评估模型的记忆能力,与现有方法相比,提供了更全面的视角。

关键设计:在技术细节上,SimpleTrace使用了轻量级的追踪机制,能够高效地归因模型生成内容,并计算逐字和近乎逐字的记忆度量,确保评估的准确性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,前缀攻击引发的记忆信号显著强于普通提示,且DFM Decoder在后续训练中对Common Pile数据集的记忆倾向降低,显示出记忆能力的动态变化。这一发现强调了在不同训练阶段对模型记忆能力的评估重要性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全性评估、数据隐私保护以及模型训练过程的优化。通过更全面的记忆评估,研究人员和开发者可以更好地理解模型的行为,从而在实际应用中减少潜在的训练数据泄漏风险。

📄 摘要(原文)

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.