Perturb Your Data: Paraphrase-Guided Training Data Watermarking

📄 arXiv: 2512.17075v1 📥 PDF

作者: Pranav Shetty, Mirazul Haque, Petr Babkin, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso

分类: cs.CL, cs.LG

发布日期: 2025-12-18

备注: Accepted to AAAI 2026


💡 一句话要点

SPECTRA:一种基于释义引导的训练数据水印方法,用于检测LLM训练数据来源。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据水印 训练数据检测 大型语言模型 释义生成 版权保护

📋 核心要点

  1. 大型语言模型(LLM)的训练依赖于从互联网抓取的庞大文本语料库,因此训练数据检测对于版权和数据许可至关重要。
  2. SPECTRA的核心思想是通过LLM对文本进行释义,并根据评分模型选择与原始文本相似的释义,从而嵌入水印。
  3. 实验结果表明,SPECTRA在检测训练数据方面,p值差距超过九个数量级,显著优于其他基线方法。

📝 摘要(中文)

本文提出了一种名为SPECTRA的水印方法,用于可靠地检测训练数据,即使该数据在训练语料库中占比小于0.001%。SPECTRA通过使用LLM释义文本,并根据单独的评分模型评估每个释义的可能性来实现。选择的释义与原始文本的得分非常接近,以避免引入任何分布偏移。为了测试可疑模型是否在带有水印的数据上训练过,我们将它的token概率与评分模型的token概率进行比较。实验表明,在检测用于训练的数据与未用于训练的数据时,SPECTRA实现了超过九个数量级的p值差距,优于所有测试的基线。SPECTRA为数据所有者提供了一种可扩展的、发布前部署的水印,即使经过大规模LLM训练也能保留。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)训练数据溯源的问题。现有方法在检测占比极小的训练数据时效果不佳,难以应对大规模LLM训练带来的挑战。数据所有者需要一种可扩展、可靠的水印技术,以便在模型发布前部署,并能抵抗大规模训练的干扰。

核心思路:SPECTRA的核心思路是通过对原始文本进行释义,生成语义相似但表达不同的文本,并将这些释义作为水印嵌入到训练数据中。关键在于选择与原始文本分布尽可能接近的释义,以避免影响模型的训练效果。通过比较可疑模型的token概率与评分模型的token概率,可以判断该模型是否使用了带有水印的训练数据。

技术框架:SPECTRA主要包含以下几个阶段:1) 释义生成:使用LLM对原始文本进行释义,生成多个候选释义。2) 释义评分:使用独立的评分模型(如语言模型)对每个释义进行评分,评估其与原始文本的相似度。3) 释义选择:选择与原始文本得分最接近的释义作为水印文本。4) 水印嵌入:将水印文本添加到训练数据集中。5) 水印检测:比较可疑模型的token概率与评分模型的token概率,计算p值,判断是否使用了带有水印的训练数据。

关键创新:SPECTRA的关键创新在于使用释义作为水印,并采用评分模型来选择与原始文本分布相似的释义。这种方法可以有效地嵌入水印,同时避免对模型训练产生显著影响。此外,通过比较token概率进行水印检测,可以有效地检测出使用了带有水印数据的模型。

关键设计:SPECTRA的关键设计包括:1) 使用LLM(如BART)进行释义生成。2) 使用独立的语言模型(如GPT-2)作为评分模型,评估释义的流畅性和与原始文本的相似度。3) 选择与原始文本得分最接近的释义,可以使用余弦相似度等指标来衡量得分的接近程度。4) 在水印检测阶段,使用统计检验(如p值检验)来判断可疑模型的token概率是否显著偏离评分模型的token概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPECTRA在训练数据检测方面表现出色,即使水印数据占比小于0.001%,也能实现超过九个数量级的p值差距,显著优于其他基线方法。这表明SPECTRA具有很高的检测精度和鲁棒性,能够有效应对大规模LLM训练带来的挑战。

🎯 应用场景

SPECTRA可应用于保护LLM训练数据的版权和数据许可。数据所有者可以在发布数据前嵌入水印,以便在发现未经授权的模型时进行溯源。该技术有助于维护数据市场的公平性,促进数据共享和创新,并防止恶意使用未经授权的数据训练模型。

📄 摘要(原文)

Training data detection is critical for enforcing copyright and data licensing, as Large Language Models (LLM) are trained on massive text corpora scraped from the internet. We present SPECTRA, a watermarking approach that makes training data reliably detectable even when it comprises less than 0.001% of the training corpus. SPECTRA works by paraphrasing text using an LLM and assigning a score based on how likely each paraphrase is, according to a separate scoring model. A paraphrase is chosen so that its score closely matches that of the original text, to avoid introducing any distribution shifts. To test whether a suspect model has been trained on the watermarked data, we compare its token probabilities against those of the scoring model. We demonstrate that SPECTRA achieves a consistent p-value gap of over nine orders of magnitude when detecting data used for training versus data not used for training, which is greater than all baselines tested. SPECTRA equips data owners with a scalable, deploy-before-release watermark that survives even large-scale LLM training.