Optimized Couplings for Watermarking Large Language Models

📄 arXiv: 2505.08878v1 📥 PDF

作者: Dor Tsur, Carol Xuan Long, Claudio Mayrink Verdun, Hsiang Hsu, Haim Permuter, Flavio P. Calmon

分类: cs.CR, cs.AI, cs.IT

发布日期: 2025-05-13

备注: Accepted at ISIT25

🔗 代码/项目: GITHUB


💡 一句话要点

针对大语言模型,提出优化耦合的水印方案,提升检测能力并降低文本质量损失。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 水印技术 文本生成 辅助信息 假设检验

📋 核心要点

  1. 现有LLM水印技术在检测能力和文本质量之间存在权衡,如何在保证检测率的同时,最小化对生成文本质量的扰动是一个挑战。
  2. 论文提出了一种优化耦合的水印方案,通过在水印检测器共享的辅助信息和LLM词汇表的随机划分之间建立耦合关系来解决上述问题。
  3. 实验结果表明,该方案在合成数据和LLM水印任务中,相较于现有方案和理论最优方案,在检测率和文本质量之间取得了更好的平衡。

📝 摘要(中文)

大型语言模型(LLM)现在能够生成在许多情况下与人类生成的内容几乎无法区分的文本。这推动了水印技术的发展,该技术在LLM生成的文本中嵌入“信号”,同时最大限度地减少对LLM输出的扰动。本文分析了单次设置中的文本水印技术。通过带有辅助信息的假设检验的视角,我们制定并分析了水印检测能力与生成文本质量失真之间的根本权衡。我们认为,水印设计的关键组成部分是生成水印检测器共享的辅助信息与LLM词汇表的随机划分之间的耦合。我们的分析确定了在满足最小熵约束的最坏情况LLM下一个token分布下的最优耦合和随机化策略。我们提供了所提出的方案下所得检测率的闭式表达式,并以最大最小意义量化了成本。最后,我们提供了一系列数值结果,在合成数据和LLM水印中,将所提出的方案与理论最优方案和现有方案进行了比较。我们的代码可在https://github.com/Carol-Long/CC_Watermark获取。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)生成文本的水印问题,具体而言,是在保证水印检测能力的前提下,尽可能降低水印对生成文本质量的影响。现有水印方法通常难以在检测率和文本质量之间取得平衡,要么检测率不高,要么对文本质量造成较大扰动。

核心思路:论文的核心思路是优化水印检测器共享的辅助信息与LLM词汇表的随机划分之间的耦合关系。通过精心设计这种耦合,可以在最小化文本质量损失的同时,最大化水印的检测能力。论文从带有辅助信息的假设检验角度出发,将水印问题建模为一个优化问题。

技术框架:该水印方案主要包含以下几个阶段:1) 词汇表划分:将LLM的词汇表随机划分为若干个子集。2) 耦合设计:设计水印检测器共享的辅助信息与词汇表划分之间的耦合关系。这是方案的核心,目标是找到最优的耦合方式。3) 水印嵌入:根据耦合关系,在生成文本时,选择性地使用某些词汇子集,从而嵌入水印。4) 水印检测:利用辅助信息和耦合关系,检测文本中是否存在水印。

关键创新:该论文的关键创新在于提出了优化耦合的概念,并找到了在最坏情况下(即LLM的下一个token分布满足最小熵约束)的最优耦合策略。这种最优耦合能够最大化水印的检测率,同时最小化对文本质量的影响。与现有方法相比,该方法更加注重辅助信息与词汇表划分之间的关系,从而实现了更好的性能。

关键设计:论文的关键设计包括:1) 最小熵约束:对LLM的下一个token分布施加最小熵约束,以模拟最坏情况。2) 最优耦合策略:基于最小熵约束,推导出了最优的耦合策略,并给出了检测率的闭式表达式。3) 最大最小意义下的成本量化:以最大最小意义量化了水印对文本质量的影响,从而可以更好地评估水印方案的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过数值实验验证了所提出的水印方案的有效性。在合成数据和LLM水印任务中,该方案均优于现有的水印方案,并且接近理论最优性能。实验结果表明,该方案能够在保证较高检测率的同时,显著降低对文本质量的扰动。例如,在特定参数设置下,该方案的检测率可以达到95%以上,同时文本质量的损失控制在可接受的范围内。

🎯 应用场景

该研究成果可应用于各种需要对LLM生成内容进行溯源和版权保护的场景,例如:防止LLM被用于生成虚假信息、保护LLM生成内容的知识产权、以及对LLM生成内容进行安全审计等。该技术有助于构建更加安全、可信赖的LLM生态系统,并促进LLM技术的健康发展。

📄 摘要(原文)

Large-language models (LLMs) are now able to produce text that is, in many cases, seemingly indistinguishable from human-generated content. This has fueled the development of watermarks that imprint a ``signal'' in LLM-generated text with minimal perturbation of an LLM's output. This paper provides an analysis of text watermarking in a one-shot setting. Through the lens of hypothesis testing with side information, we formulate and analyze the fundamental trade-off between watermark detection power and distortion in generated textual quality. We argue that a key component in watermark design is generating a coupling between the side information shared with the watermark detector and a random partition of the LLM vocabulary. Our analysis identifies the optimal coupling and randomization strategy under the worst-case LLM next-token distribution that satisfies a min-entropy constraint. We provide a closed-form expression of the resulting detection rate under the proposed scheme and quantify the cost in a max-min sense. Finally, we provide an array of numerical results, comparing the proposed scheme with the theoretical optimum and existing schemes, in both synthetic data and LLM watermarking. Our code is available at https://github.com/Carol-Long/CC_Watermark