Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis
作者: Albérick Euraste Djiré, Abdoul Kader Kaboré, Earl T. Barr, Jacques Klein, Tegawendé F. Bissyandé
分类: cs.CL, cs.AI
发布日期: 2025-05-05
💡 一句话要点
提出PEARL,通过输入扰动分析检测大型语言模型中的记忆化行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 记忆化检测 输入扰动 模型评估 数据隐私
📋 核心要点
- 大型语言模型存在记忆训练数据的风险,而非真正泛化,这引发了隐私和知识产权问题。
- PEARL通过分析模型对输入扰动的敏感性来检测记忆化行为,无需访问模型内部结构。
- 实验表明PEARL能够识别Pythia和GPT 4o模型中的记忆化现象,并推断训练数据来源。
📝 摘要(中文)
大型语言模型(LLM)通过海量数据集的训练获得了卓越的性能,但同时也可能表现出令人担忧的行为,例如逐字复制训练数据,而非真正的泛化。这种记忆化现象引发了对数据隐私、知识产权以及模型评估可靠性的严重担忧。本文介绍了一种名为PEARL的新方法,用于检测LLM中的记忆化行为。PEARL评估LLM的性能对输入扰动的敏感程度,从而在无需访问模型内部结构的情况下实现记忆化检测。我们研究了输入扰动如何影响输出的一致性,从而区分真正的泛化和记忆化。在Pythia开源模型上进行的大量实验表明,我们的发现为识别模型何时简单地 regurgitates 学习到的信息提供了一个强大的框架。应用于GPT 4o模型时,PEARL框架不仅识别出圣经经典文本或HumanEval中的常见代码的记忆化案例,还证明它可以提供支持证据,表明某些数据(例如《纽约时报》新闻文章)很可能属于给定模型的训练数据。
🔬 方法详解
问题定义:大型语言模型在训练过程中可能过度记忆训练数据,导致其在面对新输入时无法进行有效的泛化,而是直接复述训练数据。现有的检测方法通常需要访问模型的内部参数或训练数据,这在实际应用中往往是不可行的。因此,需要一种无需访问模型内部信息即可检测记忆化行为的方法。
核心思路:PEARL的核心思路是,如果模型只是简单地记忆了训练数据,那么对输入进行微小的扰动应该会导致输出产生较大的变化。相反,如果模型具有良好的泛化能力,那么对输入进行微小的扰动应该不会对输出产生显著的影响。通过分析模型输出对输入扰动的敏感程度,可以区分记忆化和泛化。
技术框架:PEARL框架主要包含以下几个阶段:1) 选择或生成一组输入样本;2) 对每个输入样本进行扰动,生成多个扰动后的样本;3) 将原始样本和扰动后的样本输入到LLM中,获取对应的输出;4) 计算原始输出和扰动后输出之间的差异,例如使用编辑距离或语义相似度等指标;5) 根据差异的大小判断模型是否发生了记忆化行为。如果差异较大,则认为模型发生了记忆化;如果差异较小,则认为模型具有较好的泛化能力。
关键创新:PEARL的关键创新在于它提出了一种无需访问模型内部信息即可检测记忆化行为的方法。该方法通过分析模型输出对输入扰动的敏感程度来判断模型是否发生了记忆化,具有较强的通用性和可扩展性。与现有方法相比,PEARL不需要访问模型的内部参数或训练数据,因此更易于在实际应用中使用。
关键设计:PEARL的关键设计包括:1) 如何选择或生成具有代表性的输入样本;2) 如何设计有效的输入扰动策略,例如随机替换、插入或删除单词;3) 如何选择合适的指标来衡量原始输出和扰动后输出之间的差异;4) 如何设置合适的阈值来判断模型是否发生了记忆化行为。这些设计都会影响PEARL的检测效果,需要在实际应用中进行仔细的调整和优化。
🖼️ 关键图片
📊 实验亮点
在Pythia模型上的实验表明,PEARL能够有效识别模型中的记忆化行为。在GPT 4o模型上的实验表明,PEARL不仅能够识别出圣经经典文本和HumanEval代码的记忆化案例,还能够提供证据表明某些数据(例如《纽约时报》新闻文章)可能属于模型的训练数据。这些实验结果验证了PEARL的有效性和实用性。
🎯 应用场景
PEARL可用于评估大型语言模型的安全性和可靠性,检测模型是否存在数据泄露或知识产权侵犯的风险。此外,PEARL还可以用于指导模型的训练和优化,提高模型的泛化能力和鲁棒性。该研究对于保护用户隐私、维护知识产权以及提升人工智能系统的可信度具有重要意义。
📄 摘要(原文)
While Large Language Models (LLMs) achieve remarkable performance through training on massive datasets, they can exhibit concerning behaviors such as verbatim reproduction of training data rather than true generalization. This memorization phenomenon raises significant concerns about data privacy, intellectual property rights, and the reliability of model evaluations. This paper introduces PEARL, a novel approach for detecting memorization in LLMs. PEARL assesses how sensitive an LLM's performance is to input perturbations, enabling memorization detection without requiring access to the model's internals. We investigate how input perturbations affect the consistency of outputs, enabling us to distinguish between true generalization and memorization. Our findings, following extensive experiments on the Pythia open model, provide a robust framework for identifying when the model simply regurgitates learned information. Applied on the GPT 4o models, the PEARL framework not only identified cases of memorization of classic texts from the Bible or common code from HumanEval but also demonstrated that it can provide supporting evidence that some data, such as from the New York Times news articles, were likely part of the training data of a given model.