LLM Watermark Evasion via Bias Inversion

📄 arXiv: 2509.23019v2 📥 PDF

作者: Jeongyeon Hwang, Sangdon Park, Jungseul Ok

分类: cs.CR, cs.AI

发布日期: 2025-09-27 (更新: 2025-10-01)


💡 一句话要点

提出Bias-Inversion Rewriting Attack,实现LLM水印的有效规避

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 水印攻击 对抗性攻击 文本重写 偏差反转

📋 核心要点

  1. 现有LLM水印技术在对抗性攻击下的鲁棒性不足,容易被恶意规避,影响其可靠性。
  2. BIRA通过抑制可能带有水印的token的logits来削弱水印信号,实现对水印的规避,无需了解水印方案。
  3. 实验表明,BIRA在保持文本语义的同时,能够有效规避多种水印方法,规避率超过99%。

📝 摘要(中文)

本文提出了一种名为Bias-Inversion Rewriting Attack (BIRA) 的模型无关攻击方法,旨在规避大型语言模型(LLM)的水印检测。LLM水印通过在生成过程中嵌入统计信号来识别模型生成的文本。虽然水印在良性环境中有效,但在对抗性规避下的鲁棒性仍存在争议。BIRA通过在基于LLM的重写过程中抑制可能带有水印的token的logits来削弱水印信号,无需了解底层水印方案。实验表明,BIRA在保留原始文本语义内容的同时,对现有水印方法实现了超过99%的规避率。该结果揭示了一种系统性漏洞,强调了对水印进行压力测试和开发鲁棒防御机制的必要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)水印技术在对抗性攻击下的脆弱性问题。现有的水印技术在良性环境下表现良好,但容易受到攻击者的规避,从而影响水印的有效性。攻击者可以通过修改模型生成的文本来移除或削弱水印信号,使得水印检测器无法准确识别模型生成的文本。

核心思路:论文的核心思路是通过偏差反转重写攻击(Bias-Inversion Rewriting Attack, BIRA)来削弱水印信号。BIRA的核心思想是,在LLM重写文本时,有策略地抑制那些更可能被水印算法选择的token的logits值。通过降低这些token被选中的概率,从而降低整个文本的水印强度,达到规避水印检测的目的。

技术框架:BIRA攻击主要包含以下步骤:1) 使用LLM生成带有水印的原始文本;2) 使用另一个LLM(或同一个LLM)进行文本重写;3) 在重写过程中,BIRA会识别并抑制那些可能带有水印的token的logits;4) 生成重写后的文本,该文本在语义上与原始文本相似,但水印信号被显著削弱。整个过程无需了解底层水印算法的具体细节。

关键创新:BIRA的关键创新在于其模型无关性和理论驱动性。与需要了解特定水印算法的攻击方法不同,BIRA仅依赖于对LLM生成过程的理解,通过偏差反转来削弱水印信号。此外,BIRA的理论基础使其能够系统性地识别和利用LLM生成过程中的漏洞,从而实现高效的攻击。

关键设计:BIRA的关键设计在于如何确定需要抑制的token。论文提出了一种基于logits值的策略,即优先抑制那些logits值较高的token,因为这些token更可能被水印算法选中。具体实现中,可以通过调整logits值的幅度来控制攻击强度。此外,论文还考虑了如何平衡攻击强度和文本语义的保持,避免过度修改文本导致语义失真。

📊 实验亮点

实验结果表明,BIRA攻击能够有效规避多种主流LLM水印算法,规避率超过99%。即使在保持文本语义内容基本不变的情况下,BIRA仍然能够显著降低水印检测器的准确率。这一结果突显了现有水印技术的脆弱性,并强调了开发更鲁棒防御机制的重要性。

🎯 应用场景

该研究揭示了LLM水印技术在对抗性环境下的潜在风险,有助于推动更鲁棒的水印防御机制的开发。研究成果可应用于评估和改进现有水印算法的安全性,并为未来水印技术的研发提供指导。此外,该研究也提醒人们在使用LLM生成内容时,需要警惕潜在的恶意篡改和伪造行为。

📄 摘要(原文)

Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the \emph{Bias-Inversion Rewriting Attack} (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.