HATS: High-Accuracy Triple-Set Watermarking for Large Language Models

作者: Zhiqing Hu, Chenxu Zhao, Jiazhong Lu, Xiaolei Liu

分类: cs.CL

发布日期: 2025-12-22

备注: Camera-ready version of the paper accepted for oral presentation at the 11th International Conference on Computer and Communications (ICCC 2025)

期刊: In Proceedings of the 11th International Conference on Computer and Communications, 2025

💡 一句话要点

提出高精度三集合水印方案HATS，用于保护大型语言模型生成文本的版权

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 水印技术 文本生成 版权保护 信息溯源

📋 核心要点

大型语言模型生成文本的滥用问题日益严重，需要有效的水印技术来追踪和鉴别生成内容。
HATS水印方案通过将词汇表划分为绿/黄/红三集合，并限制采样范围，在生成文本中嵌入隐式信号。
实验表明，HATS在保持文本可读性的同时，实现了高检测精度和低假阳性率，优于现有方法。

📝 摘要（中文）

本文提出了一种针对大型语言模型（LLM）生成文本的水印技术，旨在遏制LLM生成文本的滥用。该水印技术在每个解码步骤将词汇表划分为三个集合（绿/黄/红），并限制采样仅在绿色和黄色集合中进行。在检测时，重放相同的划分，计算绿色集合的富集和红色集合的耗尽统计量，将其转换为单侧z分数，并通过Fisher方法聚合它们的p值，以判断一段文本是否被水印标记。在Llama 2 7B上实现了生成、检测和测试，并评估了真阳性率、假阳性率和文本质量。结果表明，三集合划分方案在固定FPR下实现了高检测精度，同时保持了可读性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）生成文本的滥用问题，例如未经授权的商业使用或传播虚假信息。现有水印方法可能存在检测精度不高、影响文本质量或容易被攻击等问题。

核心思路：论文的核心思路是在LLM生成文本的过程中，通过控制词汇的选择来嵌入水印。具体来说，将词汇表划分为三个集合（绿、黄、红），并限制采样仅在绿色和黄色集合中进行。通过调整这三个集合的比例，可以在保证文本流畅性的同时，嵌入可检测的水印信号。

技术框架：HATS水印方案主要包含两个阶段：生成阶段和检测阶段。在生成阶段，首先根据预设的比例将词汇表划分为绿、黄、红三个集合。然后，在每个解码步骤，LLM仅从绿色和黄色集合中采样生成下一个词。在检测阶段，对于一段待检测的文本，重新进行相同的词汇表划分，并计算绿色集合的富集程度和红色集合的耗尽程度。最后，通过统计检验判断该文本是否包含水印。

关键创新：HATS的关键创新在于使用了三集合划分方案。相比于传统的二元划分，三集合划分可以更灵活地控制水印的强度和文本的质量。绿色集合用于保证文本的流畅性，黄色集合用于嵌入水印信号，红色集合则用于降低被选中的概率，从而增强水印的隐蔽性。

关键设计：HATS的关键设计包括：1) 三个集合的比例设置，需要根据具体的LLM和应用场景进行调整，以平衡检测精度和文本质量；2) 检测时使用的统计检验方法，论文采用了Fisher方法来聚合多个p值，提高了检测的鲁棒性；3) 水印密钥的选择，需要保证密钥的安全性，防止攻击者伪造水印。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HATS水印方案在Llama 2 7B模型上实现了高检测精度和低假阳性率。在固定FPR下，HATS的真阳性率显著高于现有的水印方法。同时，HATS对文本质量的影响较小，能够保持生成文本的可读性和流畅性。这些结果表明，HATS是一种有效且实用的LLM水印技术。

🎯 应用场景

HATS水印技术可应用于多种场景，例如：保护LLM生成内容的版权，防止未经授权的商业使用；追踪和溯源LLM生成的不良信息，例如虚假新闻或恶意评论；验证LLM生成内容的真实性，防止被篡改。该技术有助于规范LLM的使用，促进LLM技术的健康发展。

📄 摘要（原文）

Misuse of LLM-generated text can be curbed by watermarking techniques that embed implicit signals into the output. We propose a watermark that partitions the vocabulary at each decoding step into three sets (Green/Yellow/Red) with fixed ratios and restricts sampling to the Green and Yellow sets. At detection time, we replay the same partitions, compute Green-enrichment and Red-depletion statistics, convert them to one-sided z-scores, and aggregate their p-values via Fisher's method to decide whether a passage is watermarked. We implement generation, detection, and testing on Llama 2 7B, and evaluate true-positive rate, false-positive rate, and text quality. Results show that the triple-partition scheme achieves high detection accuracy at fixed FPR while preserving readability.

HATS: High-Accuracy Triple-Set Watermarking for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理