Language Models May Verbatim Complete Text They Were Not Explicitly Trained On

📄 arXiv: 2503.17514v2 📥 PDF

作者: Ken Ziyu Liu, Christopher A. Choquette-Choo, Matthew Jagielski, Peter Kairouz, Sanmi Koyejo, Percy Liang, Nicolas Papernot

分类: cs.CL, cs.AI, cs.CR, cs.LG

发布日期: 2025-03-21 (更新: 2025-03-25)

备注: Main text: 9 pages, 7 figures, 1 table. Appendix: 29 pages, 20 tables, 15 figures


💡 一句话要点

大型语言模型可能生成未显式训练的文本,挑战现有成员定义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 成员推断 数据溯源 n-gram重叠 对抗性数据集

📋 核心要点

  1. 现有方法依赖n-gram重叠来判断文本是否被用于训练LLM,但这种方法容易被“欺骗”。
  2. 论文通过移除可补全的训练样本后重新训练LLM,发现模型仍能生成未显式训练的文本。
  3. 设计对抗性数据集,使得LLM可以补全目标序列,即使该序列不包含任何n-gram重叠。

📝 摘要(中文)

当前一个重要的问题是判断给定的文本是否被用于训练大型语言模型(LLM)。一种常用的方法是“补全”测试:检查LLM是否能补全一段足够复杂的文本。然而,这需要对成员资格进行明确的定义;最常见的是基于目标文本与数据集中任何文本之间的n-gram重叠来定义成员。在这项工作中,我们证明了这种基于n-gram的成员资格定义可以被有效地“欺骗”。我们研究了序列对于给定的n是“非成员”的情况,并发现补全测试仍然成功。我们通过从头开始重新训练LLM,移除所有被补全的训练样本,发现了这种现象的许多自然情况;这些情况包括完全重复、近似重复,甚至是很短的重叠。这些案例表明,很难为成员资格定义找到一个可行的n值。利用这些见解,我们设计了对抗性数据集,可以导致给定的目标序列被补全,而无需包含它,对于任何合理的n值。我们的发现突出了n-gram成员资格的不足,表明成员资格定义未能考虑到训练算法可用的辅助信息。

🔬 方法详解

问题定义:论文旨在解决如何准确判断一段文本是否被用于训练大型语言模型的问题。现有方法主要依赖于n-gram重叠来定义成员关系,即如果目标文本与训练集中存在足够多的n-gram重叠,则认为该文本是训练集的成员。然而,这种方法的痛点在于,它过于简单,忽略了语言模型的泛化能力和训练过程中可能利用的辅助信息,导致容易出现误判,即模型可以生成未显式训练的文本。

核心思路:论文的核心思路是挑战基于n-gram重叠的成员关系定义。通过实验证明,即使目标文本与训练集没有足够的n-gram重叠,语言模型仍然可以成功补全该文本。这表明语言模型可能学习到更复杂的模式和关系,而不仅仅是简单的n-gram记忆。因此,需要更全面的方法来判断文本是否被用于训练。

技术框架:论文主要通过实验来验证其观点。首先,作者从头开始重新训练LLM,并在训练前移除所有可以被模型补全的训练样本。然后,测试模型是否仍然可以补全这些被移除的文本。其次,作者设计了对抗性数据集,这些数据集可以诱导模型补全目标序列,而目标序列与训练集没有明显的n-gram重叠。通过这些实验,作者证明了基于n-gram的成员关系定义的局限性。

关键创新:论文最重要的技术创新在于,它揭示了基于n-gram重叠的成员关系定义的不足,并提出了语言模型可能利用辅助信息进行泛化的观点。与现有方法相比,该论文更加关注语言模型的学习机制,而不仅仅是简单的文本匹配。这为研究语言模型的训练数据溯源问题提供了新的视角。

关键设计:论文的关键设计在于实验方案。移除可补全的训练样本的实验,能够直接验证模型是否可以生成未显式训练的文本。对抗性数据集的设计,则能够进一步挑战基于n-gram的成员关系定义。具体的参数设置和损失函数等技术细节,论文中没有详细描述,未知。

🖼️ 关键图片

img_0

📊 实验亮点

论文通过实验证明,即使移除所有可被补全的训练样本,LLM仍然可以补全这些文本。此外,通过设计对抗性数据集,成功诱导LLM补全与训练集没有n-gram重叠的目标序列。这些实验结果表明,基于n-gram的成员关系定义是不充分的,需要更全面的方法来判断文本是否被用于训练LLM。

🎯 应用场景

该研究成果可应用于评估大型语言模型的训练数据隐私风险,改进数据溯源技术,并为设计更安全的语言模型提供指导。理解语言模型如何泛化和记忆训练数据,有助于防止模型泄露敏感信息或生成有害内容。此外,该研究也对评估和改进现有成员推断方法具有重要意义。

📄 摘要(原文)

An important question today is whether a given text was used to train a large language model (LLM). A \emph{completion} test is often employed: check if the LLM completes a sufficiently complex text. This, however, requires a ground-truth definition of membership; most commonly, it is defined as a member based on the $n$-gram overlap between the target text and any text in the dataset. In this work, we demonstrate that this $n$-gram based membership definition can be effectively gamed. We study scenarios where sequences are \emph{non-members} for a given $n$ and we find that completion tests still succeed. We find many natural cases of this phenomenon by retraining LLMs from scratch after removing all training samples that were completed; these cases include exact duplicates, near-duplicates, and even short overlaps. They showcase that it is difficult to find a single viable choice of $n$ for membership definitions. Using these insights, we design adversarial datasets that can cause a given target sequence to be completed without containing it, for any reasonable choice of $n$. Our findings highlight the inadequacy of $n$-gram membership, suggesting membership definitions fail to account for auxiliary information available to the training algorithm.