TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection
作者: Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez
分类: cs.CR, cs.CL, cs.LG
发布日期: 2026-05-12
💡 一句话要点
TextSeal:一种用于溯源和蒸馏保护的局部化LLM水印方案
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 水印技术 溯源 版权保护 模型蒸馏 Gumbel-max采样 局部化水印
📋 核心要点
- 现有LLM水印方案在保持生成文本质量、检测强度和计算效率方面存在挑战,尤其是在混合文本和模型蒸馏场景下。
- TextSeal通过双密钥Gumbel-max采样、熵加权评分和多区域定位,实现了高检测强度、低失真和对稀释的鲁棒性。
- 实验表明,TextSeal在检测强度上优于基线,保持下游任务性能,且水印信号能通过模型蒸馏传递,实现未经授权使用检测。
📝 摘要(中文)
本文提出了一种先进的大语言模型水印方案TextSeal。该方案基于Gumbel-max采样,引入了双密钥生成以恢复输出多样性,并结合熵加权评分和多区域定位来提高检测能力。TextSeal支持推断优化,如推测解码和多token预测,且不增加任何推断开销。在检测强度方面,TextSeal严格优于SynthID-text等基线方法,并且对稀释具有鲁棒性,即使在大量混合人类/AI文档中也能保持可靠的局部化检测。该方案在理论上是无失真的,并且在推理基准测试中的评估证实了其能够保持下游性能。一项多语言人工评估(6000次A/B比较,5种语言)表明,该方案在质量上没有明显差异。除了用于溯源检测外,TextSeal还具有“放射性”:其水印信号可以通过模型蒸馏传递,从而能够检测未经授权的使用。
🔬 方法详解
问题定义:当前大语言模型(LLM)生成内容的溯源和版权保护面临挑战。现有的水印方法在检测强度、文本质量保持、计算效率以及对模型蒸馏的抵抗能力方面存在不足。尤其是在人类和AI混合生成文本的情况下,水印的检测变得更加困难。此外,防止未经授权的模型蒸馏也是一个重要的问题。
核心思路:TextSeal的核心思路是在LLM的生成过程中嵌入难以察觉的水印,该水印具有高检测强度、低失真,并且能够抵抗稀释和模型蒸馏。通过局部化水印,即使在部分文本被修改或替换的情况下,也能进行有效检测。双密钥生成保证了生成文本的多样性,熵加权评分提高了检测的准确性。
技术框架:TextSeal的整体框架包括水印嵌入和水印检测两个主要阶段。在水印嵌入阶段,利用双密钥Gumbel-max采样修改LLM的token选择过程,将水印信息嵌入到生成文本中。在水印检测阶段,通过熵加权评分和多区域定位,从文本中提取水印信号并进行验证。该方案可以与推测解码和多token预测等serving优化技术兼容。
关键创新:TextSeal的关键创新在于以下几点:1) 引入双密钥Gumbel-max采样,在保证水印强度的同时,恢复了生成文本的多样性。2) 采用熵加权评分,提高了水印检测的准确性,降低了误报率。3) 实现了多区域局部化水印,即使部分文本被修改或替换,也能进行有效检测。4) 水印信号可以通过模型蒸馏传递,从而能够检测未经授权的模型使用。
关键设计:TextSeal的关键设计包括:1) Gumbel-max采样的具体实现方式,包括如何利用双密钥生成不同的候选token集合。2) 熵加权评分的计算方法,如何根据token的熵值调整其在水印检测中的权重。3) 多区域定位的具体策略,如何选择不同的文本区域进行水印检测,以及如何组合不同区域的检测结果。4) 水印嵌入强度参数的设置,需要在水印强度和文本质量之间进行权衡。
🖼️ 关键图片
📊 实验亮点
TextSeal在检测强度上显著优于SynthID-text等基线方法,并且对稀释具有很强的鲁棒性,即使在大量混合人类/AI文档中也能保持可靠的局部化检测。多语言人工评估(6000次A/B比较,5种语言)表明,TextSeal在质量上没有明显差异。此外,TextSeal的水印信号可以通过模型蒸馏传递,从而能够检测未经授权的模型使用。
🎯 应用场景
TextSeal可广泛应用于生成式AI内容的版权保护、溯源追踪和防止滥用。例如,可以用于检测AI生成的文章、代码或图像是否被未经授权地使用或修改。此外,该技术还可以用于防止模型蒸馏,保护模型所有者的知识产权。未来,TextSeal有望成为生成式AI内容安全的重要组成部分。
📄 摘要(原文)
We introduce TextSeal, a state-of-the-art watermark for large language models. Building on Gumbel-max sampling, TextSeal introduces dual-key generation to restore output diversity, along with entropy-weighted scoring and multi-region localization for improved detection. It supports serving optimizations such as speculative decoding and multi-token prediction, and does not add any inference overhead. TextSeal strictly dominates baselines like SynthID-text in detection strength and is robust to dilution, maintaining confident localized detection even in heavily mixed human/AI documents. The scheme is theoretically distortion-free, and evaluation across reasoning benchmarks confirms that it preserves downstream performance; while a multilingual human evaluation (6000 A/B comparisons, 5 languages) shows no perceptible quality difference. Beyond its use for provenance detection, TextSeal is also ``radioactive'': its watermark signal transfers through model distillation, enabling detection of unauthorized use.