Rethinking Memorization Measures and their Implications in Large Language Models

📄 arXiv: 2507.14777v1 📥 PDF

作者: Bishwamittra Ghosh, Soumi Das, Qinyuan Wu, Mohammad Aflah Khan, Krishna P. Gummadi, Evimaria Terzi, Deepak Garg

分类: cs.LG

发布日期: 2025-07-20

备注: Preprint


💡 一句话要点

重新审视大语言模型中的记忆化度量及其影响,揭示现有度量标准的不一致性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 记忆化 隐私保护 上下文学习 度量标准

📋 核心要点

  1. 现有基于回忆的记忆化度量方法存在谬误,将任何形式的高回忆都视为记忆化的标志,缺乏对上下文学习能力的考虑。
  2. 提出上下文记忆化,通过引入最佳上下文回忆阈值,区分记忆化和上下文学习能力,从而更准确地衡量模型的记忆化程度。
  3. 实验表明,不同的记忆化度量方法在评估结果上存在差异,且最优学习无法完全避免记忆化,改进学习能减少上下文和反事实记忆化。

📝 摘要(中文)

本文关注大语言模型中的记忆化问题,认为其通常被视为是不受欢迎的,特别是对于学习而言,因为它涉及隐私威胁。本文研究了在最优学习语言时是否可以避免记忆化,以及记忆化带来的隐私威胁是否被夸大。为此,我们重新审视了现有的以隐私为中心的记忆化度量方法,包括基于回忆的记忆化和反事实记忆化,以及新提出的上下文记忆化。上下文记忆化将记忆化与学习过程中的局部过拟合联系起来,旨在将记忆化与LLM的上下文学习能力区分开来。非正式地说,如果一个字符串由于训练而引起的回忆超过了最佳上下文回忆(一个表示没有训练的最佳上下文学习的已学习阈值),那么该字符串就被上下文记忆化。从概念上讲,上下文回忆避免了基于回忆的记忆化的谬误,即任何形式的高回忆都是记忆化的标志。从理论上讲,上下文记忆化与反事实记忆化相关,但施加了更强的条件。记忆化度量在结果和信息需求方面有所不同。通过对来自6个系列的18个LLM和多个不同熵的形式语言进行实验,我们表明(a)记忆化度量在不同频率字符串的记忆化顺序上存在分歧,(b)语言的最佳学习无法避免训练字符串的部分记忆化,以及(c)改进的学习会减少上下文和反事实记忆化,但会增加基于回忆的记忆化。最后,(d)我们重新审视了现有报告中通过回忆记忆的字符串,这些字符串既不构成隐私威胁,也没有在上下文或反事实上被记忆。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)中记忆化度量标准不一致以及现有度量标准可能夸大隐私风险的问题。现有基于回忆的记忆化度量方法将任何形式的高回忆都视为记忆化的标志,忽略了LLM的上下文学习能力,导致对记忆化的评估不准确。

核心思路:论文的核心思路是区分记忆化和上下文学习能力。通过引入“上下文记忆化”的概念,将记忆化与学习过程中的局部过拟合联系起来,旨在更准确地衡量LLM的记忆化程度。核心在于定义一个“最佳上下文回忆”阈值,超过该阈值才被认为是记忆化。

技术框架:论文提出了一个新的记忆化度量标准——上下文记忆化,并将其与现有的基于回忆的记忆化和反事实记忆化进行比较。整体流程包括:1)定义上下文记忆化;2)理论分析上下文记忆化与反事实记忆化的关系;3)在多个LLM和形式语言上进行实验,比较不同记忆化度量标准的结果;4)分析现有报告中通过回忆记忆的字符串的隐私风险。

关键创新:论文的关键创新在于提出了上下文记忆化的概念,它通过引入最佳上下文回忆阈值,区分了记忆化和上下文学习能力。与现有方法相比,上下文记忆化避免了将任何形式的高回忆都视为记忆化的谬误,从而更准确地评估了LLM的记忆化程度。

关键设计:上下文记忆化的关键在于确定最佳上下文回忆阈值。该阈值通过学习得到,代表了在没有训练的情况下,LLM能够达到的最佳上下文学习效果。具体的技术细节(如损失函数、网络结构等)未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的记忆化度量方法在评估结果上存在显著差异,对同一字符串的记忆化程度排序不一致。此外,实验还发现,最优学习无法完全避免训练数据的记忆化,并且改进的学习会降低上下文和反事实记忆化,但可能增加基于回忆的记忆化。最后,论文重新评估了现有报告中通过回忆记忆的字符串,发现其中一些字符串并不构成隐私威胁。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型的隐私保护能力,帮助开发者更好地理解模型的记忆化行为,并设计更安全的模型。此外,该研究提出的上下文记忆化度量方法可以用于评估不同训练策略对模型记忆化的影响,从而指导模型训练过程。

📄 摘要(原文)

Concerned with privacy threats, memorization in LLMs is often seen as undesirable, specifically for learning. In this paper, we study whether memorization can be avoided when optimally learning a language, and whether the privacy threat posed by memorization is exaggerated or not. To this end, we re-examine existing privacy-focused measures of memorization, namely recollection-based and counterfactual memorization, along with a newly proposed contextual memorization. Relating memorization to local over-fitting during learning, contextual memorization aims to disentangle memorization from the contextual learning ability of LLMs. Informally, a string is contextually memorized if its recollection due to training exceeds the optimal contextual recollection, a learned threshold denoting the best contextual learning without training. Conceptually, contextual recollection avoids the fallacy of recollection-based memorization, where any form of high recollection is a sign of memorization. Theoretically, contextual memorization relates to counterfactual memorization, but imposes stronger conditions. Memorization measures differ in outcomes and information requirements. Experimenting on 18 LLMs from 6 families and multiple formal languages of different entropy, we show that (a) memorization measures disagree on memorization order of varying frequent strings, (b) optimal learning of a language cannot avoid partial memorization of training strings, and (c) improved learning decreases contextual and counterfactual memorization but increases recollection-based memorization. Finally, (d) we revisit existing reports of memorized strings by recollection that neither pose a privacy threat nor are contextually or counterfactually memorized.