Low-Perplexity LLM-Generated Sequences and Where To Find Them

📄 arXiv: 2507.01844v1 📥 PDF

作者: Arthur Wuhrmann, Anastasiia Kucherenko, Andrei Kucharavy

分类: cs.CL, cs.LG

发布日期: 2025-07-02

备注: Camera-ready version. Accepted to ACL 2025. 10 pages, 4 figures, 6 tables


💡 一句话要点

提出基于低困惑度序列分析的LLM训练数据溯源方法,揭示模型记忆行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 低困惑度序列 训练数据溯源 模型记忆 文本生成

📋 核心要点

  1. 大型语言模型训练数据的可追溯性是理解模型行为的关键,但现有方法难以有效识别和分析模型记忆的文本片段。
  2. 该论文提出一种基于低困惑度序列的系统方法,通过提取高概率文本片段并追溯其在训练数据中的来源,来研究模型的记忆行为。
  3. 实验发现,相当一部分低困惑度序列无法在训练语料库中找到,揭示了模型可能存在超出训练数据的泛化或记忆机制。

📝 摘要(中文)

随着大型语言模型(LLMs)日益普及,理解特定训练数据如何影响其输出对于透明度、责任性、隐私和公平性至关重要。为了探索LLMs如何利用和复制其训练数据,我们提出了一种系统方法,该方法以分析低困惑度序列(即模型生成的高概率文本片段)为中心。我们的流程能够可靠地提取各种主题的此类长序列,同时避免退化,然后将它们追溯到训练数据中的来源。令人惊讶的是,我们发现很大一部分低困惑度跨度无法映射到语料库。对于那些确实匹配的跨度,我们量化了它们在源文档中的出现分布,突出了逐字回忆的范围和性质,并为更好地理解LLMs训练数据如何影响其行为铺平了道路。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)训练数据溯源的问题。现有方法难以有效识别模型记忆的文本片段,并且缺乏对这些片段在训练数据中分布情况的量化分析。这使得我们难以理解LLMs如何利用和复制其训练数据,从而影响了模型的透明度、责任性、隐私和公平性。

核心思路:论文的核心思路是利用LLMs生成的低困惑度序列作为研究模型记忆行为的切入点。低困惑度序列代表模型认为概率最高的文本片段,因此更有可能直接来源于训练数据。通过提取这些序列并追溯其在训练数据中的来源,可以揭示模型记忆的范围和性质。

技术框架:该方法包含以下主要步骤:1) 低困惑度序列提取:使用LLM生成文本,并识别困惑度低于阈值的长序列。采用策略避免生成过程中的退化现象。2) 训练数据溯源:将提取的低困惑度序列与训练数据集进行匹配,查找序列的原始来源。3) 分布分析:对于找到匹配项的序列,分析其在不同源文档中的出现频率和分布情况。

关键创新:该方法的核心创新在于利用低困惑度序列作为研究LLM记忆行为的探针。与直接分析整个训练数据集相比,这种方法更加高效,并且能够聚焦于模型最可能记忆的文本片段。此外,该方法还提供了一种量化分析模型记忆行为的框架,可以用于比较不同模型或不同训练数据集的影响。

关键设计:在低困惑度序列提取阶段,需要仔细选择困惑度阈值,以平衡序列的长度和质量。同时,需要采用合适的策略来避免生成过程中的退化现象,例如使用top-p sampling或temperature scaling。在训练数据溯源阶段,可以使用高效的字符串匹配算法,例如Aho-Corasick算法,来加速查找过程。在分布分析阶段,可以使用统计方法来量化序列在不同源文档中的出现频率和分布情况。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,相当一部分(具体比例未知)的低困惑度序列无法在训练语料库中找到,这表明LLMs可能存在超出训练数据的泛化或记忆机制。对于能够匹配的序列,论文量化了它们在源文档中的分布,为理解LLMs的逐字回忆行为提供了新的视角。

🎯 应用场景

该研究成果可应用于评估大型语言模型的隐私风险,识别模型可能存在的版权侵犯问题,并改进模型的训练数据选择策略。通过更好地理解LLMs的记忆行为,可以提高模型的透明度、责任性和公平性,并促进其在各个领域的安全可靠应用。

📄 摘要(原文)

As Large Language Models (LLMs) become increasingly widespread, understanding how specific training data shapes their outputs is crucial for transparency, accountability, privacy, and fairness. To explore how LLMs leverage and replicate their training data, we introduce a systematic approach centered on analyzing low-perplexity sequences - high-probability text spans generated by the model. Our pipeline reliably extracts such long sequences across diverse topics while avoiding degeneration, then traces them back to their sources in the training data. Surprisingly, we find that a substantial portion of these low-perplexity spans cannot be mapped to the corpus. For those that do match, we quantify the distribution of occurrences across source documents, highlighting the scope and nature of verbatim recall and paving a way toward better understanding of how LLMs training data impacts their behavior.