TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection

作者: Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez

分类: cs.CR, cs.CL, cs.LG

发布日期: 2026-05-12

💡 一句话要点

TextSeal：一种用于溯源和蒸馏保护的局部化LLM水印方案

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 水印技术 溯源 版权保护 模型蒸馏 Gumbel-max采样 局部化水印

📋 核心要点

现有LLM水印方案在保持生成文本质量、检测强度和计算效率方面存在挑战，尤其是在混合文本和模型蒸馏场景下。
TextSeal通过双密钥Gumbel-max采样、熵加权评分和多区域定位，实现了高检测强度、低失真和对稀释的鲁棒性。
实验表明，TextSeal在检测强度上优于基线，保持下游任务性能，且水印信号能通过模型蒸馏传递，实现未经授权使用检测。

📝 摘要（中文）

本文提出了一种先进的大语言模型水印方案TextSeal。该方案基于Gumbel-max采样，引入了双密钥生成以恢复输出多样性，并结合熵加权评分和多区域定位来提高检测能力。TextSeal支持推断优化，如推测解码和多token预测，且不增加任何推断开销。在检测强度方面，TextSeal严格优于SynthID-text等基线方法，并且对稀释具有鲁棒性，即使在大量混合人类/AI文档中也能保持可靠的局部化检测。该方案在理论上是无失真的，并且在推理基准测试中的评估证实了其能够保持下游性能。一项多语言人工评估（6000次A/B比较，5种语言）表明，该方案在质量上没有明显差异。除了用于溯源检测外，TextSeal还具有“放射性”：其水印信号可以通过模型蒸馏传递，从而能够检测未经授权的使用。

🔬 方法详解

问题定义：当前大语言模型（LLM）生成内容的溯源和版权保护面临挑战。现有的水印方法在检测强度、文本质量保持、计算效率以及对模型蒸馏的抵抗能力方面存在不足。尤其是在人类和AI混合生成文本的情况下，水印的检测变得更加困难。此外，防止未经授权的模型蒸馏也是一个重要的问题。

核心思路：TextSeal的核心思路是在LLM的生成过程中嵌入难以察觉的水印，该水印具有高检测强度、低失真，并且能够抵抗稀释和模型蒸馏。通过局部化水印，即使在部分文本被修改或替换的情况下，也能进行有效检测。双密钥生成保证了生成文本的多样性，熵加权评分提高了检测的准确性。

技术框架：TextSeal的整体框架包括水印嵌入和水印检测两个主要阶段。在水印嵌入阶段，利用双密钥Gumbel-max采样修改LLM的token选择过程，将水印信息嵌入到生成文本中。在水印检测阶段，通过熵加权评分和多区域定位，从文本中提取水印信号并进行验证。该方案可以与推测解码和多token预测等serving优化技术兼容。

关键创新：TextSeal的关键创新在于以下几点：1) 引入双密钥Gumbel-max采样，在保证水印强度的同时，恢复了生成文本的多样性。2) 采用熵加权评分，提高了水印检测的准确性，降低了误报率。3) 实现了多区域局部化水印，即使部分文本被修改或替换，也能进行有效检测。4) 水印信号可以通过模型蒸馏传递，从而能够检测未经授权的模型使用。

关键设计：TextSeal的关键设计包括：1) Gumbel-max采样的具体实现方式，包括如何利用双密钥生成不同的候选token集合。2) 熵加权评分的计算方法，如何根据token的熵值调整其在水印检测中的权重。3) 多区域定位的具体策略，如何选择不同的文本区域进行水印检测，以及如何组合不同区域的检测结果。4) 水印嵌入强度参数的设置，需要在水印强度和文本质量之间进行权衡。

🖼️ 关键图片

📊 实验亮点

TextSeal在检测强度上显著优于SynthID-text等基线方法，并且对稀释具有很强的鲁棒性，即使在大量混合人类/AI文档中也能保持可靠的局部化检测。多语言人工评估（6000次A/B比较，5种语言）表明，TextSeal在质量上没有明显差异。此外，TextSeal的水印信号可以通过模型蒸馏传递，从而能够检测未经授权的模型使用。

🎯 应用场景

TextSeal可广泛应用于生成式AI内容的版权保护、溯源追踪和防止滥用。例如，可以用于检测AI生成的文章、代码或图像是否被未经授权地使用或修改。此外，该技术还可以用于防止模型蒸馏，保护模型所有者的知识产权。未来，TextSeal有望成为生成式AI内容安全的重要组成部分。

📄 摘要（原文）

We introduce TextSeal, a state-of-the-art watermark for large language models. Building on Gumbel-max sampling, TextSeal introduces dual-key generation to restore output diversity, along with entropy-weighted scoring and multi-region localization for improved detection. It supports serving optimizations such as speculative decoding and multi-token prediction, and does not add any inference overhead. TextSeal strictly dominates baselines like SynthID-text in detection strength and is robust to dilution, maintaining confident localized detection even in heavily mixed human/AI documents. The scheme is theoretically distortion-free, and evaluation across reasoning benchmarks confirms that it preserves downstream performance; while a multilingual human evaluation (6000 A/B comparisons, 5 languages) shows no perceptible quality difference. Beyond its use for provenance detection, TextSeal is also ``radioactive'': its watermark signal transfers through model distillation, enabling detection of unauthorized use.

TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理