Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking

作者: Ziyang You, Huilong He, Xiaoke Yang, Xuxing Lu

分类: cs.CR, cs.AI

发布日期: 2026-05-27

备注: Preprint prepared for submission to IEEE TIFS. 12 pages, 8 figures

💡 一句话要点

提出SeedHijack攻击，针对LLM水印的PRNG供应链盲篡改，实现完整性保持和正交检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM水印 伪随机数生成器 供应链攻击 盲攻击 完整性保持 内容溯源 量子随机数生成器

📋 核心要点

现有LLM水印方案依赖于可信的伪随机数生成器（PRNG），但缺乏对PRNG供应链完整性的考虑，存在安全隐患。
SeedHijack通过替换PRNG，在不影响文本质量的前提下，偏置绿名单选择，从而放大水印信号，实现盲攻击。
实验表明，SeedHijack能够有效提升水印z-score，同时绕过现有的内容侧统计检测器，凸显了PRNG完整性的重要性。

📝 摘要（中文）

密码学水印是归属大型语言模型（LLM）生成文本的一种领先防御手段。现有的方案，包括KGW、Unigram和DipMark，都依赖于底层伪随机数生成器（PRNG）的可信性。本文提出了SeedHijack，这是首个针对LLM水印的供应链攻击，它同时具备以下特点：（i）盲攻击——无需水印密钥、检测器或模型logits的知识；（ii）完整性保持——放大而非擦除水印信号；（iii）与检测正交——攻击引入的偏差在统计上独立于所有内容侧检测器统计量，确保放大和规避共存而没有权衡。SeedHijack不是扰乱生成的文本，而是在供应链层替换PRNG，在不改变输出token或降低文本质量的情况下，偏置绿名单选择。在三种水印方案和三种开源LLM上，该攻击触发了0/6个最先进的内容侧统计检测器，同时将水印z-score提高了2.42倍（诸如熵源证明之类的系统级防御仍然是正交的和互补的）。量子随机数生成器（QRNG）对策被证明可以完全中和该攻击，同时保持良性水印的效用。这些发现确立了PRNG完整性作为密码学内容溯源系统的首要安全要求。

🔬 方法详解

问题定义：论文旨在解决LLM水印方案中PRNG可能被恶意篡改的问题。现有水印方案依赖于PRNG的安全性，但忽略了PRNG供应链的潜在风险。攻击者可以通过替换PRNG来操纵水印嵌入过程，而无需了解水印密钥、检测器或模型logits，从而实现隐蔽攻击。这种攻击的痛点在于，它可以在不改变生成文本内容的情况下破坏水印的完整性。

核心思路：论文的核心思路是提出一种名为SeedHijack的攻击方法，通过在供应链层替换PRNG，来偏置水印嵌入过程中的绿名单选择。这种方法的核心在于，它不直接修改生成的文本，而是通过操纵PRNG的输出来影响水印的嵌入，从而实现对水印信号的放大。这种设计使得攻击具有隐蔽性和完整性保持的特点。

技术框架：SeedHijack攻击的技术框架主要包括以下几个步骤：1) 确定目标LLM水印方案和使用的PRNG；2) 在供应链层替换原始PRNG为恶意PRNG；3) 恶意PRNG被设计为偏置绿名单选择，从而放大水印信号；4) 使用被攻击的LLM生成文本；5) 使用现有的水印检测器检测生成文本中的水印信号。整个过程无需访问水印密钥、检测器或模型logits。

关键创新：SeedHijack的关键创新在于它是一种供应链攻击，直接针对PRNG的完整性。与传统的通过扰动生成文本来攻击水印的方法不同，SeedHijack通过操纵PRNG的输出来影响水印的嵌入，从而实现盲攻击和完整性保持。此外，SeedHijack的设计使得攻击引入的偏差在统计上独立于内容侧检测器统计量，从而避免了放大水印信号和规避检测之间的权衡。

关键设计：SeedHijack的关键设计在于恶意PRNG的实现。恶意PRNG需要能够偏置绿名单选择，从而放大水印信号。具体实现方式可以根据不同的水印方案进行调整。例如，可以设计恶意PRNG使得某些特定的token更容易被选择为绿名单token。此外，为了保证攻击的隐蔽性，恶意PRNG需要尽可能地保持与原始PRNG的统计特性相似，从而避免被检测到。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SeedHijack攻击能够在三种水印方案（KGW、Unigram、DipMark）和三种开源LLM上成功放大水印信号，最高可将水印z-score提高2.42倍。同时，该攻击能够绕过6个最先进的内容侧统计检测器，表明其具有很强的隐蔽性。量子随机数生成器（QRNG）作为一种潜在的防御手段，被证明可以有效中和SeedHijack攻击，同时保持水印的效用。

🎯 应用场景

该研究揭示了LLM水印方案中PRNG完整性的重要性，强调了在实际应用中需要对PRNG供应链进行安全审计和验证。研究成果可以应用于提升LLM内容溯源系统的安全性，防止恶意篡改和伪造内容，保护知识产权和维护信息安全。未来可以探索更安全的PRNG设计和系统级防御机制，例如熵源证明，以应对PRNG供应链攻击。

📄 摘要（原文）

Cryptographic watermarking is a leading defense for attributing text generated by large language models (LLMs). Existing schemes, including KGW, Unigram, and DipMark, derive their security guarantees from the assumption that the underlying pseudo-random number generator (PRNG) is trustworthy. This work introduces SeedHijack, the first supply-chain attack on LLM watermarking that is simultaneously (i) blind -- requiring no knowledge of the watermark key, detector, or model logits, (ii) integrity-preserving -- amplifying rather than erasing the watermark signal, and (iii) orthogonal to detection -- the attack-induced bias is statistically independent of all content-side detector statistics, ensuring that amplification and evasion coexist without trade-off. Rather than perturbing generated text, SeedHijack replaces the PRNG at the supply-chain layer, biasing green-list selection without altering output tokens or degrading text quality. Across three watermarking schemes and three open-source LLMs, the attack triggers 0/6 state-of-the-art content-side statistical detectors while inflating the watermark z-score up to 2.42x (system-level defenses such as entropy-source attestation remain orthogonal and complementary). A quantum random number generator (QRNG) countermeasure is shown to fully neutralize the attack while preserving benign watermarking utility. These findings establish PRNG integrity as a first-class security requirement for cryptographic content-provenance systems.

Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理