Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking
作者: Ziyang You, Huilong He, Xiaoke Yang, Xuxing Lu
分类: cs.CR, cs.AI
发布日期: 2026-05-27
备注: Preprint prepared for submission to IEEE TIFS. 12 pages, 8 figures
💡 一句话要点
提出SeedHijack攻击,针对LLM水印的PRNG供应链盲篡改,实现完整性保持和正交检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM水印 伪随机数生成器 供应链攻击 盲攻击 完整性保持 内容溯源 量子随机数生成器
📋 核心要点
- 现有LLM水印方案依赖于可信的伪随机数生成器(PRNG),但缺乏对PRNG供应链完整性的考虑,存在安全隐患。
- SeedHijack通过替换PRNG,在不影响文本质量的前提下,偏置绿名单选择,从而放大水印信号,实现盲攻击。
- 实验表明,SeedHijack能够有效提升水印z-score,同时绕过现有的内容侧统计检测器,凸显了PRNG完整性的重要性。
📝 摘要(中文)
密码学水印是归属大型语言模型(LLM)生成文本的一种领先防御手段。现有的方案,包括KGW、Unigram和DipMark,都依赖于底层伪随机数生成器(PRNG)的可信性。本文提出了SeedHijack,这是首个针对LLM水印的供应链攻击,它同时具备以下特点:(i)盲攻击——无需水印密钥、检测器或模型logits的知识;(ii)完整性保持——放大而非擦除水印信号;(iii)与检测正交——攻击引入的偏差在统计上独立于所有内容侧检测器统计量,确保放大和规避共存而没有权衡。SeedHijack不是扰乱生成的文本,而是在供应链层替换PRNG,在不改变输出token或降低文本质量的情况下,偏置绿名单选择。在三种水印方案和三种开源LLM上,该攻击触发了0/6个最先进的内容侧统计检测器,同时将水印z-score提高了2.42倍(诸如熵源证明之类的系统级防御仍然是正交的和互补的)。量子随机数生成器(QRNG)对策被证明可以完全中和该攻击,同时保持良性水印的效用。这些发现确立了PRNG完整性作为密码学内容溯源系统的首要安全要求。
🔬 方法详解
问题定义:论文旨在解决LLM水印方案中PRNG可能被恶意篡改的问题。现有水印方案依赖于PRNG的安全性,但忽略了PRNG供应链的潜在风险。攻击者可以通过替换PRNG来操纵水印嵌入过程,而无需了解水印密钥、检测器或模型logits,从而实现隐蔽攻击。这种攻击的痛点在于,它可以在不改变生成文本内容的情况下破坏水印的完整性。
核心思路:论文的核心思路是提出一种名为SeedHijack的攻击方法,通过在供应链层替换PRNG,来偏置水印嵌入过程中的绿名单选择。这种方法的核心在于,它不直接修改生成的文本,而是通过操纵PRNG的输出来影响水印的嵌入,从而实现对水印信号的放大。这种设计使得攻击具有隐蔽性和完整性保持的特点。
技术框架:SeedHijack攻击的技术框架主要包括以下几个步骤:1) 确定目标LLM水印方案和使用的PRNG;2) 在供应链层替换原始PRNG为恶意PRNG;3) 恶意PRNG被设计为偏置绿名单选择,从而放大水印信号;4) 使用被攻击的LLM生成文本;5) 使用现有的水印检测器检测生成文本中的水印信号。整个过程无需访问水印密钥、检测器或模型logits。
关键创新:SeedHijack的关键创新在于它是一种供应链攻击,直接针对PRNG的完整性。与传统的通过扰动生成文本来攻击水印的方法不同,SeedHijack通过操纵PRNG的输出来影响水印的嵌入,从而实现盲攻击和完整性保持。此外,SeedHijack的设计使得攻击引入的偏差在统计上独立于内容侧检测器统计量,从而避免了放大水印信号和规避检测之间的权衡。
关键设计:SeedHijack的关键设计在于恶意PRNG的实现。恶意PRNG需要能够偏置绿名单选择,从而放大水印信号。具体实现方式可以根据不同的水印方案进行调整。例如,可以设计恶意PRNG使得某些特定的token更容易被选择为绿名单token。此外,为了保证攻击的隐蔽性,恶意PRNG需要尽可能地保持与原始PRNG的统计特性相似,从而避免被检测到。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SeedHijack攻击能够在三种水印方案(KGW、Unigram、DipMark)和三种开源LLM上成功放大水印信号,最高可将水印z-score提高2.42倍。同时,该攻击能够绕过6个最先进的内容侧统计检测器,表明其具有很强的隐蔽性。量子随机数生成器(QRNG)作为一种潜在的防御手段,被证明可以有效中和SeedHijack攻击,同时保持水印的效用。
🎯 应用场景
该研究揭示了LLM水印方案中PRNG完整性的重要性,强调了在实际应用中需要对PRNG供应链进行安全审计和验证。研究成果可以应用于提升LLM内容溯源系统的安全性,防止恶意篡改和伪造内容,保护知识产权和维护信息安全。未来可以探索更安全的PRNG设计和系统级防御机制,例如熵源证明,以应对PRNG供应链攻击。
📄 摘要(原文)
Cryptographic watermarking is a leading defense for attributing text generated by large language models (LLMs). Existing schemes, including KGW, Unigram, and DipMark, derive their security guarantees from the assumption that the underlying pseudo-random number generator (PRNG) is trustworthy. This work introduces SeedHijack, the first supply-chain attack on LLM watermarking that is simultaneously (i) blind -- requiring no knowledge of the watermark key, detector, or model logits, (ii) integrity-preserving -- amplifying rather than erasing the watermark signal, and (iii) orthogonal to detection -- the attack-induced bias is statistically independent of all content-side detector statistics, ensuring that amplification and evasion coexist without trade-off. Rather than perturbing generated text, SeedHijack replaces the PRNG at the supply-chain layer, biasing green-list selection without altering output tokens or degrading text quality. Across three watermarking schemes and three open-source LLMs, the attack triggers 0/6 state-of-the-art content-side statistical detectors while inflating the watermark z-score up to 2.42x (system-level defenses such as entropy-source attestation remain orthogonal and complementary). A quantum random number generator (QRNG) countermeasure is shown to fully neutralize the attack while preserving benign watermarking utility. These findings establish PRNG integrity as a first-class security requirement for cryptographic content-provenance systems.