Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning

📄 arXiv: 2504.06575v2 📥 PDF

作者: Li An, Yujian Liu, Yepeng Liu, Yang Zhang, Yuheng Bu, Shiyu Chang

分类: cs.CR, cs.CL

发布日期: 2025-04-09 (更新: 2025-04-10)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于对比表示学习的语义感知水印算法,防御LLM水印的恶意篡改攻击。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: LLM水印 恶意篡改攻击 对比学习 语义感知 文本安全

📋 核心要点

  1. 现有LLM水印技术缺乏对恶意篡改攻击的有效防御,容易被利用进行声誉攻击。
  2. 提出一种语义感知水印算法,通过对比学习使水印对语义变化敏感,同时保持对语义保留编辑的鲁棒性。
  3. 实验证明,该方法在抵抗移除攻击和恶意篡改攻击方面表现出色,同时保持了较高的水印检测率。

📝 摘要(中文)

本文提出了一种针对大型语言模型(LLM)生成文本的水印防御恶意篡改攻击的方法。现有水印技术主要关注水印文本的质量、可检测性和抗移除攻击能力,但对恶意篡改攻击的安全性研究不足。例如,piggyback攻击可以在保留原始水印的同时,恶意改变水印文本的语义,将其转化为仇恨言论,从而损害LLM提供商的声誉。为了解决水印对语义扭曲变化敏感,但对语义保留编辑不敏感的需求,以及检测全局语义变化与自回归水印方案局部性之间的矛盾,本文提出了一种语义感知水印算法,该算法在保持原始语义的同时,后置地将水印嵌入到目标文本中。该方法引入了一个语义映射模型,用于指导生成绿色-红色token列表,并通过对比学习,使其对语义扭曲变化敏感,对语义保留变化不敏感。在两个标准基准上的实验表明,该方法在保持高水印可检测性的同时,对移除攻击和恶意篡改攻击(包括情感反转和有毒内容插入)具有很强的鲁棒性。该方法为LLM更安全和语义感知的水印提供了一个重要的步骤。代码已开源。

🔬 方法详解

问题定义:论文旨在解决LLM水印技术容易遭受恶意篡改攻击的问题。现有的水印方案主要关注水印的不可见性、可检测性和抗移除攻击能力,忽略了水印文本语义被恶意篡改的风险,例如在保留水印的同时将文本内容修改为仇恨言论。

核心思路:核心思路是设计一种语义感知的水印方案,该方案能够区分语义保持的修改和语义扭曲的修改。通过对比学习,使水印嵌入过程对语义扭曲的修改更加敏感,而对语义保持的修改更加鲁棒。这样,即使水印本身没有被移除,如果文本的语义发生了显著变化,也能被检测出来。

技术框架:该方法采用后置水印嵌入的方式,即在生成目标文本后,再嵌入水印。整体流程包括:1) 使用LLM生成目标文本;2) 利用语义映射模型,根据目标文本生成绿色-红色token列表;3) 将绿色-红色token列表作为水印嵌入到目标文本中。语义映射模型是整个框架的核心,负责将文本的语义信息映射到水印的嵌入位置。

关键创新:关键创新在于语义映射模型的设计和对比学习的应用。语义映射模型能够学习文本的语义表示,并根据语义表示生成绿色-红色token列表,从而实现语义感知的水印嵌入。对比学习用于训练语义映射模型,使其对语义扭曲的修改更加敏感,而对语义保持的修改更加鲁棒。

关键设计:语义映射模型采用Transformer架构,输入为目标文本,输出为绿色-红色token列表。对比学习的损失函数设计为InfoNCE损失,正样本为语义保持的修改后的文本,负样本为语义扭曲的修改后的文本。通过最小化InfoNCE损失,使语义映射模型能够更好地区分语义保持和语义扭曲的修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在两个标准基准上均取得了良好的效果。在抵抗移除攻击方面,该方法与现有水印方案相当。在抵抗恶意篡改攻击方面,该方法显著优于现有水印方案,能够有效检测出情感反转和有毒内容插入等攻击,同时保持了较高的水印检测率。

🎯 应用场景

该研究成果可应用于各种需要使用LLM生成文本的场景,例如内容创作、智能客服、机器翻译等。通过使用语义感知水印技术,可以有效防止恶意用户篡改LLM生成的内容,保护LLM提供商的声誉,并确保生成内容的安全性。

📄 摘要(原文)

Watermarking has emerged as a promising technique for detecting texts generated by LLMs. Current research has primarily focused on three design criteria: high quality of the watermarked text, high detectability, and robustness against removal attack. However, the security against spoofing attacks remains relatively understudied. For example, a piggyback attack can maliciously alter the meaning of watermarked text-transforming it into hate speech-while preserving the original watermark, thereby damaging the reputation of the LLM provider. We identify two core challenges that make defending against spoofing difficult: (1) the need for watermarks to be both sensitive to semantic-distorting changes and insensitive to semantic-preserving edits, and (2) the contradiction between the need to detect global semantic shifts and the local, auto-regressive nature of most watermarking schemes. To address these challenges, we propose a semantic-aware watermarking algorithm that post-hoc embeds watermarks into a given target text while preserving its original meaning. Our method introduces a semantic mapping model, which guides the generation of a green-red token list, contrastively trained to be sensitive to semantic-distorting changes and insensitive to semantic-preserving changes. Experiments on two standard benchmarks demonstrate strong robustness against removal attacks and security against spoofing attacks, including sentiment reversal and toxic content insertion, while maintaining high watermark detectability. Our approach offers a significant step toward more secure and semantically aware watermarking for LLMs. Our code is available at https://github.com/UCSB-NLP-Chang/contrastive-watermark.