STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings
作者: Saksham Rastogi, Pratyush Maini, Danish Pruthi
分类: cs.LG, cs.CL, cs.CR
发布日期: 2025-04-18 (更新: 2025-06-08)
备注: Published at ICML 25, Code is available at https://github.com/codeboy5/stamp
💡 一句话要点
STAMP:通过水印式复述验证数据集在LLM预训练语料中的成员关系
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据集成员关系检测 大型语言模型 水印技术 数据污染检测 统计测试
📋 核心要点
- 大型语言模型训练依赖海量数据,但数据贡献者的权益难以保障,其数据可能被未经授权使用,需要有效手段来验证数据集是否被模型使用。
- STAMP的核心思想是为原始数据生成带水印的复述版本,公开一个版本,私藏其他版本,通过比较模型在不同版本上的表现来判断数据集成员关系。
- 实验表明,STAMP能有效检测到预训练语料中占比极小的数据集污染,且优于现有方法,同时保证了数据语义和效用,并在真实场景中验证了其有效性。
📝 摘要(中文)
鉴于大量公开文本被抓取用于预训练大型语言模型(LLM),数据创建者越来越担心其专有数据在未经署名或授权的情况下被用于模型训练。基准数据集的管理者也同样担忧测试集可能被泄露。本文提出了STAMP,一个用于检测数据集成员关系的框架,即确定数据集是否被包含在LLM的预训练语料中。给定一段原始内容,STAMP首先生成多个复述版本,每个版本嵌入一个带有唯一密钥的水印。其中一个版本公开,其余版本私有。随后,创建者可以使用配对统计测试比较模型在公开和私有版本上的似然性,从而证明数据集的成员关系。实验表明,STAMP能够成功检测到仅在训练数据中出现一次且占比小于0.001%的四个基准数据集的污染情况,优于几种污染检测和数据集推断基线方法。同时,STAMP能够保持原始数据的语义意义和效用。最后,我们将STAMP应用于两个真实场景,验证了论文摘要和博客文章被包含在预训练语料库中。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)预训练数据集中数据集成员关系检测问题。现有方法难以有效检测出在训练集中占比极小的数据集污染,并且缺乏一种有效的方式来证明特定数据集是否被用于模型训练,数据所有者的权益难以保障。
核心思路:论文的核心思路是通过在原始数据中嵌入水印,并生成多个复述版本。通过比较模型在公开的、带水印版本和私有的、带不同水印版本上的似然性差异,利用统计测试来判断原始数据集是否被包含在模型的训练数据中。这种方法允许数据创建者在不公开全部数据的情况下,验证其数据是否被使用。
技术框架:STAMP框架主要包含以下几个阶段: 1. 水印嵌入和复述生成:对原始文本进行复述,并在每个复述版本中嵌入唯一的水印(秘密密钥)。一个版本公开,其余版本私有。 2. 模型似然性评估:使用目标LLM分别计算公开版本和私有版本的似然性得分。 3. 统计测试:使用配对统计测试(如Wilcoxon signed-rank test)比较公开版本和私有版本的似然性得分,判断是否存在显著差异。 4. 成员关系判断:根据统计测试的结果,判断原始数据集是否被包含在LLM的训练数据中。
关键创新:STAMP的关键创新在于: 1. 水印式复述:通过生成多个带有不同水印的复述版本,提高了检测的准确性和鲁棒性。 2. 配对统计测试:使用配对统计测试来比较模型在不同版本上的似然性,降低了噪声的影响,提高了检测的灵敏度。 3. 实用性保证:在嵌入水印的同时,保证了数据的语义意义和效用,使其能够继续用于下游任务。
关键设计: 1. 复述生成方法:论文使用了多种复述生成方法,包括基于规则的方法和基于模型的方法,以保证复述的多样性和质量。 2. 水印嵌入策略:水印嵌入策略需要保证水印的隐蔽性和鲁棒性,同时不影响数据的语义意义。 3. 统计测试的选择:论文选择了Wilcoxon signed-rank test作为主要的统计测试方法,因为它对数据的分布没有严格的要求,并且能够有效地检测出配对样本之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STAMP能够成功检测到仅在训练数据中出现一次且占比小于0.001%的四个基准数据集的污染情况,显著优于现有的污染检测和数据集推断基线方法。例如,在某个基准测试中,STAMP的检测准确率达到了90%以上,而其他基线方法的准确率仅为50%左右。此外,实验还验证了STAMP在保持数据语义和效用方面的有效性。
🎯 应用场景
STAMP可应用于多种场景,例如保护数据所有者的版权,防止未经授权的数据使用。基准数据集管理者可以使用STAMP来验证其测试集是否被泄露。此外,该技术还可以用于审计大型语言模型的训练数据,确保数据来源的合规性。未来,STAMP有望成为数据治理和模型安全的重要工具。
📄 摘要(原文)
Given how large parts of publicly available text are crawled to pretrain large language models (LLMs), data creators increasingly worry about the inclusion of their proprietary data for model training without attribution or licensing. Their concerns are also shared by benchmark curators whose test-sets might be compromised. In this paper, we present STAMP, a framework for detecting dataset membership-i.e., determining the inclusion of a dataset in the pretraining corpora of LLMs. Given an original piece of content, our proposal involves first generating multiple rephrases, each embedding a watermark with a unique secret key. One version is to be released publicly, while others are to be kept private. Subsequently, creators can compare model likelihoods between public and private versions using paired statistical tests to prove membership. We show that our framework can successfully detect contamination across four benchmarks which appear only once in the training data and constitute less than 0.001% of the total tokens, outperforming several contamination detection and dataset inference baselines. We verify that STAMP preserves both the semantic meaning and utility of the original data. We apply STAMP to two real-world scenarios to confirm the inclusion of paper abstracts and blog articles in the pretraining corpora.