Vaporizer: Breaking Watermarking Schemes for Large Language Model Outputs

📄 arXiv: 2605.07481v1 📥 PDF

作者: Jonathan Hong Jin Ng, Anh Tu Ngo, Anupam Chattopadhyay

分类: cs.CR, cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出Vaporizer攻击框架,通过语义保持的文本修改有效破解大语言模型水印方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型水印 对抗性攻击 语义保持 内容溯源 AI安全

📋 核心要点

  1. 核心问题:当前主流LLM水印方案在面对语义保持类攻击时表现出脆弱性,无法在保证文本质量的同时提供稳健的溯源保护。
  2. 方法要点:论文提出了Vaporizer攻击框架,通过词汇级修改、机器翻译及神经重述等手段,在不改变文本核心语义的前提下破坏水印特征。
  3. 实验或效果:实验证明现有水印系统均可被有效破解,揭示了水印技术在对抗性攻击下的局限性,并为提升水印算法的鲁棒性提供了理论依据。

📝 摘要(中文)

本文深入研究了当前大语言模型(LLM)输出水印技术的鲁棒性。尽管这些技术被宣称为稳健、可扩展且达到生产级标准,旨在促进LLM的负责任使用,但本研究通过一系列针对性的语义修改攻击对其有效性进行了严峻挑战。攻击策略涵盖词汇替换、机器翻译及神经重述等多种手段,旨在移除水印的同时保持文本的原始语义。研究通过BERT分数、文本复杂度、语法错误率及Flesch阅读易读性指数等多维度指标评估语义保持效果。实验结果表明,尽管不同水印方案的鲁棒性存在差异,但现有主流水印系统均可通过合理的攻击成本被成功移除,这揭示了现有方案的脆弱性,并为构建更安全的防御机制提供了改进方向。

🔬 方法详解

问题定义:论文旨在解决大语言模型水印技术在实际应用中的鲁棒性缺失问题。现有水印方案通常依赖于特定的Token分布偏置,而攻击者可以通过语义等价的文本变换(如同义词替换、重写)轻易破坏这些统计特征,导致溯源失效。

核心思路:核心思路是利用“语义不变性”作为攻击约束,通过多层次的文本扰动策略,在保持文本可读性和原始含义的前提下,最大限度地降低水印检测器的置信度分数。

技术框架:Vaporizer框架包含三个主要模块:词汇级修改模块(利用同义词库进行替换)、机器翻译模块(通过多语言互译引入噪声)、以及神经重述模块(利用预训练模型如T5或BART进行语义重写)。

关键创新:该研究的创新点在于系统性地构建了一个攻击评估基准,不仅关注水印的移除率,还通过BERTScore、语法检查和可读性指标严格量化了攻击后的语义保真度,证明了“低成本破解”的可行性。

关键设计:在评估指标上,采用了Flesch阅读易读性指数和文本复杂度度量,确保攻击后的文本在人类阅读体验上与原文无异,从而规避了简单的基于困惑度(Perplexity)的防御检测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验覆盖了多种前沿水印方案,结果显示所有被测模型均能被Vaporizer框架以合理成本破解。通过BERTScore等指标验证,攻击后的文本在保持高语义相似度的同时,水印检测器的检测准确率显著下降,证明了现有生产级水印方案在面对复杂语义扰动时的防御能力严重不足。

🎯 应用场景

该研究主要应用于大语言模型安全与内容溯源领域。其价值在于揭示了当前水印技术的防御边界,为AI安全研究人员设计更具鲁棒性的水印算法(如基于隐写术或更复杂统计分布的方案)提供参考,同时提醒内容审核平台不能过度依赖现有的水印检测机制。

📄 摘要(原文)

In this paper, we investigate the recent state-of-the-art schemes for watermarking large language models (LLMs) outputs. These techniques are claimed to be robust, scalable and production-grade, aimed at promoting responsible usage of LLMs. We analyse the effectiveness of these watermarking techniques against an extensive collection of modified text attacks, which perform targeted semantic changes without altering the general meaning of the text content. Our approach encompasses multiple attack strategies, which include lexical alterations, machine translation, and even neural paraphrasing. The attack efficacy is measured with two target criteria - successful removal of the watermark and preservation of semantic content. We evaluate semantic preservation through BERT scores, text complexity measures, grammatical errors, and Flesch Reading Ease indices. The experimental results reveal varying levels of effectiveness among different watermarking models, with the same underlying result that it is possible to remove the watermark with reasonable effort. This study sheds light on the strengths and weaknesses of existing LLM watermarking systems, suggesting how they should be constructed to improve security of available schemes.