Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models
作者: Abhilasha Ravichander, Jillian Fisher, Taylor Sorensen, Ximing Lu, Yuchen Lin, Maria Antoniak, Niloofar Mireshghallah, Chandra Bhagavatula, Yejin Choi
分类: cs.CL
发布日期: 2025-03-15
备注: NAACL 2025
💡 一句话要点
提出信息引导探针,用于识别专有大语言模型中的训练数据印记
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 训练数据 模型记忆 信息引导 版权侵权
📋 核心要点
- 商业LLM训练数据不透明,导致版权问题、数据作者权益受损以及数据污染研究受阻。
- 利用高surprisal文本作为探针,通过评估LLM重建高surprisal token的能力来识别记忆文本。
- 无需访问模型权重或token概率,即可识别专有LLM(如GPT-4)中的训练数据印记。
📝 摘要(中文)
高质量的训练数据对于开发高性能的大语言模型(LLM)至关重要。然而,商业LLM提供商几乎不披露用于训练的数据的细节。这种缺乏透明性带来了多重挑战:它限制了对LLM的外部监督和检查,以发现诸如版权侵权等问题;它损害了数据作者的权益;并且它阻碍了对诸如数据污染和数据选择等关键问题的科学研究。我们如何恢复LLM已知的训练数据?在这项工作中,我们展示了一种新方法,通过使用信息引导探针来识别GPT-4等专有LLM已知的训练数据,而无需访问模型权重或token概率。我们的工作建立在一个关键观察之上:具有高surprisal的文本段落是记忆探针的良好搜索材料。通过评估模型成功重建文本中高surprisal token的能力,我们可以识别出LLM记忆的大量文本。
🔬 方法详解
问题定义:论文旨在解决专有大语言模型训练数据不透明的问题。现有方法难以在不访问模型权重或token概率的情况下,确定模型是否记忆了特定的训练数据。这使得外部监督、版权审查和数据污染研究变得困难。
核心思路:论文的核心思路是利用文本的“surprisal”作为识别模型记忆的线索。Surprisal指的是模型对文本中某个token的预测概率的负对数,高surprisal的token意味着模型对其出现感到“惊讶”,这可能表明该token所在的文本在训练数据中被频繁遇到并被模型记忆。
技术框架:该方法主要包含以下几个阶段:1) 选择具有高surprisal token的文本段落作为探针;2) 将探针输入目标LLM,并评估模型重建(或预测)这些高surprisal token的能力;3) 根据模型重建的准确程度,判断该文本段落是否被模型记忆。整个过程无需访问模型的内部参数。
关键创新:该方法最重要的创新点在于利用“信息量”(通过surprisal衡量)作为识别模型记忆的有效指标。与传统的记忆探针方法相比,该方法不需要预先知道模型训练数据的具体内容,而是通过分析模型自身的预测行为来推断其记忆情况。
关键设计:关键设计包括:1) 如何选择合适的surprisal阈值来确定高surprisal token;2) 如何设计评估模型重建能力的指标(例如,准确率、F1值等);3) 如何控制探针的长度和上下文,以避免引入噪声或偏差。
🖼️ 关键图片
📊 实验亮点
该研究成功地在GPT-4等专有LLM上识别出了大量的记忆文本,证明了信息引导探针的有效性。该方法无需访问模型权重或token概率,为外部监督和评估LLM的训练数据提供了新的途径。具体的性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于版权侵权检测、数据污染识别、模型安全评估等领域。通过识别LLM记忆的训练数据,可以帮助版权所有者追踪其作品的使用情况,发现模型可能存在的偏见或漏洞,并为改进LLM的训练数据选择和清洗提供指导。
📄 摘要(原文)
High-quality training data has proven crucial for developing performant large language models (LLMs). However, commercial LLM providers disclose few, if any, details about the data used for training. This lack of transparency creates multiple challenges: it limits external oversight and inspection of LLMs for issues such as copyright infringement, it undermines the agency of data authors, and it hinders scientific research on critical issues such as data contamination and data selection. How can we recover what training data is known to LLMs? In this work, we demonstrate a new method to identify training data known to proprietary LLMs like GPT-4 without requiring any access to model weights or token probabilities, by using information-guided probes. Our work builds on a key observation: text passages with high surprisal are good search material for memorization probes. By evaluating a model's ability to successfully reconstruct high-surprisal tokens in text, we can identify a surprising number of texts memorized by LLMs.