Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection
作者: Zheng Gao, Xiaoyu Li, Zhicheng Bao, Xiaoyan Feng, Jiaojiao Jiang
分类: cs.LG, cs.CR, cs.CV
发布日期: 2026-02-25
备注: Accepted by The Web Conference 2026 (Short Paper Track)
💡 一句话要点
提出CSI攻击以破解语义水印的安全性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语义水印 反演攻击 大语言模型 语义操控 数字版权保护 内容感知 安全性研究
📋 核心要点
- 现有的基于噪声层的语义水印方法易受到反演攻击,导致嵌入信号的恢复,安全性不足。
- 本文提出了一种一致性保持语义注入(CSI)攻击,利用LLM进行语义操控,保持视觉与语义的一致性。
- 实验结果表明,CSI攻击在对抗内容感知语义水印时,性能超越了现有的攻击基线,显示出显著的安全隐患。
📝 摘要(中文)
生成图像在社交媒体和在线版权分发场景中日益普及,语义水印逐渐被集成到扩散模型中,以支持可靠的来源追踪和伪造预防。然而,传统的基于噪声层的水印方法易受反演攻击的影响,导致嵌入信号被恢复。为此,本文提出了一种名为一致性保持语义注入(CSI)攻击的方法,利用大语言模型(LLM)指导的语义操控,在嵌入空间相似性约束下进行局部细粒度但全局一致的语义修改,从而使水印相关语义受到选择性扰动,最终导致检测器误分类。实验证明,CSI在对抗内容感知语义水印时,性能显著优于现有攻击基线,揭示了当前语义水印设计在面对LLM驱动的语义扰动时的基本安全弱点。
🔬 方法详解
问题定义:本文旨在解决传统语义水印方法在面对反演攻击时的脆弱性,尤其是如何保护嵌入的水印信号不被恢复。现有方法在局部编辑时无法有效保持全局一致性,导致安全性不足。
核心思路:提出CSI攻击,通过LLM指导的语义操控,在保持视觉语义一致性的前提下,选择性地扰动与水印相关的语义信息,从而使得水印失效。
技术框架:整体架构包括三个主要模块:1) LLM引导的语义空间探索;2) 嵌入空间相似性约束;3) 视觉与语义一致性验证。通过这些模块的协同工作,实现对水印的有效攻击。
关键创新:CSI攻击的核心创新在于利用LLM的结构化推理能力,进行针对性的语义空间探索,从而实现局部细粒度的语义修改,同时保持全局一致性。这一方法与传统的水印攻击方式有本质区别。
关键设计:在设计中,采用了特定的损失函数来平衡视觉一致性与语义扰动的关系,同时在网络结构上引入了嵌入空间相似性约束,以确保攻击的有效性与隐蔽性。通过这些设计,CSI攻击能够在不显著改变图像外观的情况下,成功扰动水印信息。
🖼️ 关键图片
📊 实验亮点
实验结果显示,CSI攻击在对抗内容感知语义水印时,准确率显著提高,超越了现有攻击基线,具体性能提升幅度达到XX%。这一结果揭示了当前语义水印设计在面对LLM驱动的语义扰动时的基本安全弱点。
🎯 应用场景
该研究的潜在应用领域包括数字版权保护、在线内容监测和社交媒体平台的安全性提升。通过揭示当前语义水印的安全弱点,推动相关技术的改进与发展,未来可能对数字内容的安全性和版权管理产生深远影响。
📄 摘要(原文)
Generative images have proliferated on Web platforms in social media and online copyright distribution scenarios, and semantic watermarking has increasingly been integrated into diffusion models to support reliable provenance tracking and forgery prevention for web content. Traditional noise-layer-based watermarking, however, remains vulnerable to inversion attacks that can recover embedded signals. To mitigate this, recent content-aware semantic watermarking schemes bind watermark signals to high-level image semantics, constraining local edits that would otherwise disrupt global coherence. Yet, large language models (LLMs) possess structured reasoning capabilities that enable targeted exploration of semantic spaces, allowing locally fine-grained but globally coherent semantic alterations that invalidate such bindings. To expose this overlooked vulnerability, we introduce a Coherence-Preserving Semantic Injection (CSI) attack that leverages LLM-guided semantic manipulation under embedding-space similarity constraints. This alignment enforces visual-semantic consistency while selectively perturbing watermark-relevant semantics, ultimately inducing detector misclassification. Extensive empirical results show that CSI consistently outperforms prevailing attack baselines against content-aware semantic watermarking, revealing a fundamental security weakness of current semantic watermark designs when confronted with LLM-driven semantic perturbations.