LLM Watermark Evasion via Bias Inversion

作者: Jeongyeon Hwang, Sangdon Park, Jungseul Ok

分类: cs.CR, cs.AI

发布日期: 2025-09-27 (更新: 2025-10-01)

💡 一句话要点

提出Bias-Inversion Rewriting Attack，实现LLM水印的有效规避

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 水印攻击 对抗性攻击 文本重写 偏差反转

📋 核心要点

现有LLM水印技术在对抗性攻击下的鲁棒性不足，容易被恶意规避，影响其可靠性。
BIRA通过抑制可能带有水印的token的logits来削弱水印信号，实现对水印的规避，无需了解水印方案。
实验表明，BIRA在保持文本语义的同时，能够有效规避多种水印方法，规避率超过99%。

📝 摘要（中文）

本文提出了一种名为Bias-Inversion Rewriting Attack (BIRA) 的模型无关攻击方法，旨在规避大型语言模型（LLM）的水印检测。LLM水印通过在生成过程中嵌入统计信号来识别模型生成的文本。虽然水印在良性环境中有效，但在对抗性规避下的鲁棒性仍存在争议。BIRA通过在基于LLM的重写过程中抑制可能带有水印的token的logits来削弱水印信号，无需了解底层水印方案。实验表明，BIRA在保留原始文本语义内容的同时，对现有水印方法实现了超过99%的规避率。该结果揭示了一种系统性漏洞，强调了对水印进行压力测试和开发鲁棒防御机制的必要性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）水印技术在对抗性攻击下的脆弱性问题。现有的水印技术在良性环境下表现良好，但容易受到攻击者的规避，从而影响水印的有效性。攻击者可以通过修改模型生成的文本来移除或削弱水印信号，使得水印检测器无法准确识别模型生成的文本。

核心思路：论文的核心思路是通过偏差反转重写攻击（Bias-Inversion Rewriting Attack, BIRA）来削弱水印信号。BIRA的核心思想是，在LLM重写文本时，有策略地抑制那些更可能被水印算法选择的token的logits值。通过降低这些token被选中的概率，从而降低整个文本的水印强度，达到规避水印检测的目的。

技术框架：BIRA攻击主要包含以下步骤：1) 使用LLM生成带有水印的原始文本；2) 使用另一个LLM（或同一个LLM）进行文本重写；3) 在重写过程中，BIRA会识别并抑制那些可能带有水印的token的logits；4) 生成重写后的文本，该文本在语义上与原始文本相似，但水印信号被显著削弱。整个过程无需了解底层水印算法的具体细节。

关键创新：BIRA的关键创新在于其模型无关性和理论驱动性。与需要了解特定水印算法的攻击方法不同，BIRA仅依赖于对LLM生成过程的理解，通过偏差反转来削弱水印信号。此外，BIRA的理论基础使其能够系统性地识别和利用LLM生成过程中的漏洞，从而实现高效的攻击。

关键设计：BIRA的关键设计在于如何确定需要抑制的token。论文提出了一种基于logits值的策略，即优先抑制那些logits值较高的token，因为这些token更可能被水印算法选中。具体实现中，可以通过调整logits值的幅度来控制攻击强度。此外，论文还考虑了如何平衡攻击强度和文本语义的保持，避免过度修改文本导致语义失真。

📊 实验亮点

实验结果表明，BIRA攻击能够有效规避多种主流LLM水印算法，规避率超过99%。即使在保持文本语义内容基本不变的情况下，BIRA仍然能够显著降低水印检测器的准确率。这一结果突显了现有水印技术的脆弱性，并强调了开发更鲁棒防御机制的重要性。

🎯 应用场景

该研究揭示了LLM水印技术在对抗性环境下的潜在风险，有助于推动更鲁棒的水印防御机制的开发。研究成果可应用于评估和改进现有水印算法的安全性，并为未来水印技术的研发提供指导。此外，该研究也提醒人们在使用LLM生成内容时，需要警惕潜在的恶意篡改和伪造行为。

📄 摘要（原文）

Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the \emph{Bias-Inversion Rewriting Attack} (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.

LLM Watermark Evasion via Bias Inversion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册