Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks

📄 arXiv: 2505.05190v2 📥 PDF

作者: Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal

分类: cs.LG, cs.AI, cs.CL, cs.CR

发布日期: 2025-05-08 (更新: 2025-05-11)

备注: ICML 2025 Accpeted


💡 一句话要点

提出自信息重写攻击以揭示文本水印的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本水印 自信息重写攻击 鲁棒性 大型语言模型 安全性 攻击成功率 数字版权管理

📋 核心要点

  1. 现有文本水印算法在高熵标记中嵌入水印,虽然看似有效,但却存在被攻击者利用的脆弱性,影响水印的鲁棒性。
  2. 本文提出自信息重写攻击(SIRA),通过计算标记的自信息来识别并针对性攻击水印,揭示现有算法的安全隐患。
  3. 实验结果显示,SIRA在七种水印方法上几乎实现100%的攻击成功率,且成本极低,展示了其高效性和广泛适用性。

📝 摘要(中文)

文本水印旨在通过控制大型语言模型(LLM)的采样过程,将统计信号巧妙地嵌入文本中,使水印检测器能够验证输出是否由指定模型生成。然而,现有的水印算法在高熵标记中嵌入水印的设计,可能被攻击者利用,严重影响水印的鲁棒性。本文提出了一种通用高效的重写攻击方法——自信息重写攻击(SIRA),通过计算每个标记的自信息来识别潜在的模式标记并进行针对性攻击。实验结果表明,SIRA在七种最新水印方法上实现了近100%的攻击成功率,成本仅为每百万个标记0.88美元。该方法无需访问水印算法或水印LLM,能够无缝迁移至任何LLM,甚至移动级模型。我们的研究强调了对更强鲁棒性水印的迫切需求。

🔬 方法详解

问题定义:本文旨在解决现有文本水印算法的脆弱性,特别是在高熵标记中嵌入水印的设计可能被攻击者利用,导致水印失效。

核心思路:提出自信息重写攻击(SIRA),通过计算每个标记的自信息,识别潜在的水印模式标记并进行针对性攻击,从而有效地破坏水印的完整性。

技术框架:SIRA的整体架构包括自信息计算模块、模式标记识别模块和攻击执行模块。自信息计算用于评估标记的重要性,识别出可能的水印标记后,进行针对性重写攻击。

关键创新:SIRA的主要创新在于其无需访问水印算法或水印LLM,能够适用于任何LLM,甚至是移动级模型,这与现有方法的依赖性形成鲜明对比。

关键设计:在实现SIRA时,关键参数包括自信息计算的精度和攻击策略的选择,确保攻击的高效性和成功率,同时保持对目标模型的无缝适应性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SIRA在七种最新的水印方法上实现了近100%的攻击成功率,且每百万个标记的攻击成本仅为0.88美元。这一高效性使得SIRA在实际应用中具有极大的潜力,能够对现有水印技术形成有效挑战。

🎯 应用场景

该研究的潜在应用领域包括文本生成、内容保护和数字版权管理等。通过揭示文本水印的脆弱性,促使研究者和开发者改进水印技术,从而提高文本生成模型的安全性和可靠性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Text watermarking aims to subtly embed statistical signals into text by controlling the Large Language Model (LLM)'s sampling process, enabling watermark detectors to verify that the output was generated by the specified model. The robustness of these watermarking algorithms has become a key factor in evaluating their effectiveness. Current text watermarking algorithms embed watermarks in high-entropy tokens to ensure text quality. In this paper, we reveal that this seemingly benign design can be exploited by attackers, posing a significant risk to the robustness of the watermark. We introduce a generic efficient paraphrasing attack, the Self-Information Rewrite Attack (SIRA), which leverages the vulnerability by calculating the self-information of each token to identify potential pattern tokens and perform targeted attack. Our work exposes a widely prevalent vulnerability in current watermarking algorithms. The experimental results show SIRA achieves nearly 100% attack success rates on seven recent watermarking methods with only 0.88 USD per million tokens cost. Our approach does not require any access to the watermark algorithms or the watermarked LLM and can seamlessly transfer to any LLM as the attack model, even mobile-level models. Our findings highlight the urgent need for more robust watermarking.