Data Provenance Auditing of Fine-Tuned Large Language Models with a Text-Preserving Technique
作者: Yanming Li, Seifeddine Ghozzi, Cédric Eichler, Nicolas Anciaux, Alexandra Bensamoun, Lorena Gonzalez Manzano
分类: cs.CR, cs.AI
发布日期: 2025-10-07
💡 一句话要点
提出一种文本保持的水印框架,用于审计微调大语言模型的数据来源
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 数据溯源 水印技术 黑盒审计 版权保护
📋 核心要点
- 现有方法在审计LLM训练数据来源时,依赖逐字重复或成员推理,存在可靠性问题或需修改文本。
- 提出一种文本保持的水印框架,通过嵌入不可见Unicode字符序列,实现对训练数据的溯源。
- 实验表明,该方法在黑盒访问下,能以低失败率检测到水印,且对数据集大小具有鲁棒性。
📝 摘要(中文)
本文研究了在黑盒访问条件下,审计敏感或受版权保护的文本是否被用于微调大型语言模型(LLM)的问题。现有的方法,如逐字重复和成员推理,在单个文档层面不可靠,或者需要改变可见文本。为此,我们引入了一种文本保持的水印框架,该框架将不可见的Unicode字符序列嵌入到文档中。每个水印被分成一个提示(嵌入在奇数块中)和一个回复(嵌入在偶数块中)。在审计时,我们提交只包含提示的prompt;模型输出中是否存在相应的回复,可以作为模型在标记文本上训练的证据。为了获得可靠的决策,我们将发布的水印的分数与一组预留的反事实水印进行比较,并应用具有可证明的假阳性率边界的排序测试。该设计具有以下特点:(i)最小侵入性(没有可见的文本变化),(ii)通过大的水印空间和多水印归属,可扩展到许多用户和文档,以及(iii)对常见的被动转换具有鲁棒性。我们在开放权重LLM和多个文本领域上进行了评估,分析了重复动力学、对训练集大小的敏感性以及多个并发水印下的干扰。结果表明,在黑盒访问下,该方法能够提供可靠的后验来源信号,并具有有界的FPR。实验观察到,在使用50个标记文档进行微调后,检测回复的失败率低于0.1%。相反,在超过18,000次挑战中,没有恢复任何虚假回复,对应于100%TPR@0% FPR。此外,随着数据集大小的增加,检测率保持相对稳定,即使标记集合占微调数据的比例小于0.33%,每个文档的检测率仍保持在45%以上。
🔬 方法详解
问题定义:论文旨在解决在黑盒访问条件下,如何审计大型语言模型(LLM)是否使用了敏感或受版权保护的文本进行微调的问题。现有方法,如逐字重复和成员推理,在单个文档层面不够可靠,或者需要修改可见文本,这限制了它们在实际应用中的有效性。
核心思路:论文的核心思路是在文本中嵌入不可见的Unicode字符序列作为水印,这些水印不会影响文本的可见内容,从而实现对训练数据的溯源。通过将水印分为提示(cue)和回复(reply)两部分,并在审计时检查模型是否能够根据提示生成相应的回复,来判断模型是否在包含水印的文本上进行了训练。
技术框架:该框架包含以下主要阶段:1) 水印嵌入:将不可见的Unicode字符序列嵌入到文档中,形成水印。每个水印由提示(cue)和回复(reply)两部分组成,分别嵌入在文本的奇数和偶数块中。2) 模型微调:使用包含水印的文本对LLM进行微调。3) 水印检测:在审计时,向模型提交只包含提示的prompt,并检查模型的输出中是否包含相应的回复。4) 决策:通过比较发布的水印的分数与一组预留的反事实水印的分数,并应用排序测试,来判断模型是否在包含水印的文本上进行了训练。
关键创新:该方法最重要的技术创新点在于使用了文本保持的水印技术,即在不改变文本可见内容的前提下,嵌入水印信息。这与现有方法需要修改文本或依赖模型逐字重复的特性形成了本质区别,提高了溯源的隐蔽性和实用性。
关键设计:关键设计包括:1) 使用不可见的Unicode字符序列作为水印,保证文本的可见性不受影响。2) 将水印分为提示和回复两部分,提高检测的准确性和鲁棒性。3) 使用排序测试和反事实水印,降低假阳性率。4) 采用多水印归属,支持对多个用户和文档进行溯源。论文中没有明确提及具体的参数设置、损失函数或网络结构等技术细节,这些可能取决于所使用的具体LLM和微调策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在黑盒访问下能够提供可靠的后验来源信号,并具有有界的FPR。在使用50个标记文档进行微调后,检测回复的失败率低于0.1%。在超过18,000次挑战中,没有恢复任何虚假回复,对应于100%TPR@0% FPR。即使标记集合占微调数据的比例小于0.33%,每个文档的检测率仍保持在45%以上。
🎯 应用场景
该研究成果可应用于版权保护、数据安全和模型合规性等领域。例如,可以用于检测LLM是否使用了未经授权的文本进行训练,从而保护版权所有者的权益。此外,还可以用于审计LLM的训练数据来源,确保模型符合数据安全和隐私保护的要求。该技术有助于提高LLM的可信度和透明度。
📄 摘要(原文)
We address the problem of auditing whether sensitive or copyrighted texts were used to fine-tune large language models (LLMs) under black-box access. Prior signals-verbatim regurgitation and membership inference-are unreliable at the level of individual documents or require altering the visible text. We introduce a text-preserving watermarking framework that embeds sequences of invisible Unicode characters into documents. Each watermark is split into a cue (embedded in odd chunks) and a reply (embedded in even chunks). At audit time, we submit prompts that contain only the cue; the presence of the corresponding reply in the model's output provides evidence of memorization consistent with training on the marked text. To obtain sound decisions, we compare the score of the published watermark against a held-out set of counterfactual watermarks and apply a ranking test with a provable false-positive-rate bound. The design is (i) minimally invasive (no visible text changes), (ii) scalable to many users and documents via a large watermark space and multi-watermark attribution, and (iii) robust to common passive transformations. We evaluate on open-weight LLMs and multiple text domains, analyzing regurgitation dynamics, sensitivity to training set size, and interference under multiple concurrent watermarks. Our results demonstrate reliable post-hoc provenance signals with bounded FPR under black-box access. We experimentally observe a failure rate of less than 0.1\% when detecting a reply after fine-tuning with 50 marked documents. Conversely, no spurious reply was recovered in over 18,000 challenges, corresponding to a 100\%TPR@0\% FPR. Moreover, detection rates remain relatively stable as the dataset size increases, maintaining a per-document detection rate above 45\% even when the marked collection accounts for less than 0.33\% of the fine-tuning data.