Dataset Watermarking for Closed LLMs with Provable Detection

📄 arXiv: 2605.06865v1 📥 PDF

作者: Pengrun Huang, Kamalika Chaudhuri, Yu-Xiang Wang

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出首个针对闭源大模型的数据集水印方法,实现可证明的训练数据溯源检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据集水印 模型版权保护 统计检测 数据溯源 闭源模型安全

📋 核心要点

  1. 现有水印技术多针对开源模型,缺乏针对闭源黑盒模型、且具备统计学可证明性的数据集溯源方案。
  2. 通过重写文本增加特定词对的共现频率,将水印嵌入数据集,并利用统计检验分析模型输出的共现模式。
  3. 实验验证了该方法在仅占1%训练数据比例下仍能实现高置信度检测,且不影响模型在基准任务上的性能。

📝 摘要(中文)

大型语言模型(LLMs)的预训练与微调依赖于海量且来源复杂的非结构化数据,这引发了模型是否使用了私有数据集或评估基准进行训练的版权与合规性担忧。为此,本文提出了数据集水印技术,旨在通过设计特定的数据集,使模型在训练后留下可检测的特征签名。这是首个针对闭源LLM且具备可证明检测能力的方法。该方法通过重写文本以增加随机词对的共现频率来嵌入水印,并利用模型生成输出中的共现模式进行统计检验。实验表明,该方法在微调阶段能可靠检测水印(p < 0.01),即便水印数据仅占总训练Token的1%左右,该方法依然有效,且能保持原始数据集的效用与语义完整性。

🔬 方法详解

问题定义:论文旨在解决闭源大模型(Closed LLMs)的训练数据溯源问题。现有方法通常依赖于模型权重访问权限,无法应用于仅提供API接口的闭源模型,且缺乏针对数据污染或未经授权使用私有数据的有效检测手段。

核心思路:论文提出了一种基于统计特征嵌入的方法。通过在训练数据中人为增加特定词对(Word Pairs)的共现频率,使得模型在学习过程中隐式地习得这些统计偏好,从而在生成文本时复现这些特定的共现模式。

技术框架:该方法分为嵌入阶段和检测阶段。嵌入阶段通过文本重写技术,在不改变语义的前提下植入词对共现信号;检测阶段则通过向模型输入提示词,收集其生成的输出,并利用统计检验(Statistical Test)量化词对共现频率是否显著高于预期分布。

关键创新:这是首个针对闭源模型且具备可证明检测(Provable Detection)能力的数据集水印方案。其核心创新在于将水印从模型权重转移到模型行为(生成分布)中,从而绕过了对模型内部参数的访问限制。

关键设计:关键设计在于词对的选择策略与重写算法。通过精心挑选随机词对并调整其在语料中的共现概率,确保水印信号既具有统计显著性,又不会破坏文本的语义连贯性与模型在下游任务中的实用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,该方法在多种基准模型和数据集上均表现稳健,检测置信度达到 p < 0.01。特别是在数据混合场景下,即使水印数据仅占总训练Token的1%,该方法依然能保持极高的检测成功率。同时,对比实验证明,该水印嵌入过程对模型在下游任务中的性能影响微乎其微,有效平衡了溯源能力与模型效用。

🎯 应用场景

该技术主要应用于大模型版权保护与数据合规审计。企业可利用此方法为私有数据集添加水印,从而在发现模型疑似侵权使用其数据时,通过API调用进行统计溯源。此外,该方法还可用于评估模型训练过程中的数据污染情况,提升AI供应链的透明度与安全性。

📄 摘要(原文)

Large language models (LLMs) are pre-trained and post-trained on vast amounts of loosely curated data, raising the possibility that these models may have been trained on proprietary datasets or the same benchmarks used for evaluation. This motivates the need for dataset watermarking: designing datasets such that training on them leaves detectable signatures in the resulting model. Prior work has explored this problem for open models. We introduce the first dataset watermarking method for closed LLMs with provable detection. In particular, we embed a dataset-level watermark signal by increasing the co-occurrence frequency of randomly selected word pairs through rephrasing, and detect it using a statistical test on co-occurrence patterns in model-generated outputs. We evaluate our method with multiple base models and benchmark datasets and show that it reliably detects the watermark ($p <0.01$) in the fine-tuning stage. Notably, our method remains effective in a data mixture setting where the watermarked dataset constitutes only approximately $1\%$ of the total fine-tuning tokens. Furthermore, we show that our method preserves the utility and semantic integrity of the benchmark.