HATS: High-Accuracy Triple-Set Watermarking for Large Language Models
作者: Zhiqing Hu, Chenxu Zhao, Jiazhong Lu, Xiaolei Liu
分类: cs.CL
发布日期: 2025-12-22
备注: Camera-ready version of the paper accepted for oral presentation at the 11th International Conference on Computer and Communications (ICCC 2025)
期刊: In Proceedings of the 11th International Conference on Computer and Communications, 2025
💡 一句话要点
提出高精度三集合水印方案HATS,用于保护大型语言模型生成文本的版权
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 水印技术 文本生成 版权保护 信息溯源
📋 核心要点
- 大型语言模型生成文本的滥用问题日益严重,需要有效的水印技术来追踪和鉴别生成内容。
- HATS水印方案通过将词汇表划分为绿/黄/红三集合,并限制采样范围,在生成文本中嵌入隐式信号。
- 实验表明,HATS在保持文本可读性的同时,实现了高检测精度和低假阳性率,优于现有方法。
📝 摘要(中文)
本文提出了一种针对大型语言模型(LLM)生成文本的水印技术,旨在遏制LLM生成文本的滥用。该水印技术在每个解码步骤将词汇表划分为三个集合(绿/黄/红),并限制采样仅在绿色和黄色集合中进行。在检测时,重放相同的划分,计算绿色集合的富集和红色集合的耗尽统计量,将其转换为单侧z分数,并通过Fisher方法聚合它们的p值,以判断一段文本是否被水印标记。在Llama 2 7B上实现了生成、检测和测试,并评估了真阳性率、假阳性率和文本质量。结果表明,三集合划分方案在固定FPR下实现了高检测精度,同时保持了可读性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成文本的滥用问题,例如未经授权的商业使用或传播虚假信息。现有水印方法可能存在检测精度不高、影响文本质量或容易被攻击等问题。
核心思路:论文的核心思路是在LLM生成文本的过程中,通过控制词汇的选择来嵌入水印。具体来说,将词汇表划分为三个集合(绿、黄、红),并限制采样仅在绿色和黄色集合中进行。通过调整这三个集合的比例,可以在保证文本流畅性的同时,嵌入可检测的水印信号。
技术框架:HATS水印方案主要包含两个阶段:生成阶段和检测阶段。在生成阶段,首先根据预设的比例将词汇表划分为绿、黄、红三个集合。然后,在每个解码步骤,LLM仅从绿色和黄色集合中采样生成下一个词。在检测阶段,对于一段待检测的文本,重新进行相同的词汇表划分,并计算绿色集合的富集程度和红色集合的耗尽程度。最后,通过统计检验判断该文本是否包含水印。
关键创新:HATS的关键创新在于使用了三集合划分方案。相比于传统的二元划分,三集合划分可以更灵活地控制水印的强度和文本的质量。绿色集合用于保证文本的流畅性,黄色集合用于嵌入水印信号,红色集合则用于降低被选中的概率,从而增强水印的隐蔽性。
关键设计:HATS的关键设计包括:1) 三个集合的比例设置,需要根据具体的LLM和应用场景进行调整,以平衡检测精度和文本质量;2) 检测时使用的统计检验方法,论文采用了Fisher方法来聚合多个p值,提高了检测的鲁棒性;3) 水印密钥的选择,需要保证密钥的安全性,防止攻击者伪造水印。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HATS水印方案在Llama 2 7B模型上实现了高检测精度和低假阳性率。在固定FPR下,HATS的真阳性率显著高于现有的水印方法。同时,HATS对文本质量的影响较小,能够保持生成文本的可读性和流畅性。这些结果表明,HATS是一种有效且实用的LLM水印技术。
🎯 应用场景
HATS水印技术可应用于多种场景,例如:保护LLM生成内容的版权,防止未经授权的商业使用;追踪和溯源LLM生成的不良信息,例如虚假新闻或恶意评论;验证LLM生成内容的真实性,防止被篡改。该技术有助于规范LLM的使用,促进LLM技术的健康发展。
📄 摘要(原文)
Misuse of LLM-generated text can be curbed by watermarking techniques that embed implicit signals into the output. We propose a watermark that partitions the vocabulary at each decoding step into three sets (Green/Yellow/Red) with fixed ratios and restricts sampling to the Green and Yellow sets. At detection time, we replay the same partitions, compute Green-enrichment and Red-depletion statistics, convert them to one-sided z-scores, and aggregate their p-values via Fisher's method to decide whether a passage is watermarked. We implement generation, detection, and testing on Llama 2 7B, and evaluate true-positive rate, false-positive rate, and text quality. Results show that the triple-partition scheme achieves high detection accuracy at fixed FPR while preserving readability.