A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model

📄 arXiv: 2601.07291v1 📥 PDF

作者: Qi Zheng, Shuliang Liu, Yu Huang, Sihang Jia, Jungang Li, Lyuhao Chen, Junhao Chen, Hanqian Li, Aiwei Liu, Yibo Yan, Xuming Hu

分类: cs.CV, cs.AI

发布日期: 2026-01-12


💡 一句话要点

提出VISA-Mark:一种基于前缀调优的视觉语义自适应水印方法,用于保护大视觉语言模型的内容版权。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 水印技术 版权保护 前缀调优 视觉语义自适应

📋 核心要点

  1. 现有视觉语言模型水印方法要么破坏视觉一致性,要么引入过高的推理延迟,难以兼顾性能与效率。
  2. VISA-Mark通过前缀调优提取视觉证据权重,自适应地调整水印强度,使其集中在视觉相关的token上。
  3. 实验表明,VISA-Mark在视觉一致性、检测精度和抗攻击能力方面均优于传统方法,且不影响推理效率。

📝 摘要(中文)

水印技术已成为大视觉语言模型(LVLMs)中内容溯源和知识产权保护的关键解决方案。然而,与视觉无关的水印会引入视觉上不相关的token,并通过强制执行无差别的伪随机偏差来破坏视觉基础。一些语义感知方法由于拒绝采样而导致过高的推理延迟。本文提出了一种新的视觉语义自适应水印(VISA-Mark)框架,该框架嵌入可检测的信号,同时严格保持视觉保真度。我们的方法采用轻量级、高效训练的前缀调优器来提取动态的视觉证据权重,这些权重量化了基于视觉输入对候选token的证据支持。这些权重指导自适应词汇划分和logits扰动机制,将水印强度集中在视觉支持的token上。通过主动将水印与视觉证据对齐,VISA-Mark有效地保持了视觉保真度。实验结果证实,VISA-Mark优于传统方法,在视觉一致性(Chair-I)方面提高了7.8%,并具有卓越的语义保真度。该框架保持了极具竞争力的检测精度(96.88% AUC)和强大的抗攻击能力(99.3%),且不牺牲推理效率,有效地为保持可靠性的多模态水印建立了一个新的标准。

🔬 方法详解

问题定义:现有的视觉语言模型水印方法存在两个主要问题。一是视觉无关的水印会引入与图像内容无关的token,破坏视觉一致性。二是语义感知的水印方法,如基于拒绝采样的方法,会显著增加推理延迟,影响模型的实用性。因此,如何在保证视觉保真度的同时,高效地嵌入可检测的水印信号,是一个亟待解决的问题。

核心思路:VISA-Mark的核心思路是利用视觉信息来引导水印的嵌入过程,从而避免引入与视觉内容无关的token。具体来说,该方法通过一个轻量级的前缀调优器来提取视觉证据权重,这些权重反映了不同token与视觉内容的关联程度。然后,根据这些权重自适应地调整水印的强度,使得水印更集中地嵌入到与视觉内容相关的token中。

技术框架:VISA-Mark的整体框架包括以下几个主要模块:1) 前缀调优器:用于提取视觉证据权重。2) 自适应词汇划分:根据视觉证据权重将词汇表划分为不同的子集。3) Logits扰动:根据视觉证据权重对logits进行扰动,从而嵌入水印信号。整个流程是,首先输入图像和文本提示,前缀调优器提取视觉证据权重,然后根据权重进行词汇划分和logits扰动,最后生成带有水印的文本。

关键创新:VISA-Mark的关键创新在于其视觉语义自适应的水印嵌入机制。与传统方法不同,VISA-Mark不是盲目地嵌入水印信号,而是根据视觉内容动态地调整水印的强度和位置。这种自适应的嵌入方式可以有效地保持视觉保真度,同时提高水印的检测精度和抗攻击能力。

关键设计:前缀调优器是一个轻量级的神经网络,通过训练来学习视觉证据权重。损失函数的设计旨在最大化水印的检测精度,同时最小化对视觉一致性的影响。自适应词汇划分和logits扰动的具体实现方式可以根据不同的应用场景进行调整。例如,可以使用不同的阈值来划分词汇表,或者使用不同的扰动函数来嵌入水印信号。

📊 实验亮点

实验结果表明,VISA-Mark在视觉一致性(Chair-I)方面比传统方法提高了7.8%,同时保持了极具竞争力的检测精度(96.88% AUC)和强大的抗攻击能力(99.3%)。重要的是,VISA-Mark没有牺牲推理效率,这使得它在实际应用中更具优势。这些结果表明,VISA-Mark为可靠性保持的多模态水印建立了一个新的标准。

🎯 应用场景

VISA-Mark可应用于各种视觉语言模型的版权保护,例如图像生成、视频生成、视觉问答等。它可以有效地防止未经授权的内容复制和传播,保护内容创作者的知识产权。此外,该方法还可以用于内容溯源,帮助确定内容的原始来源和传播路径。未来,该技术有望在数字内容安全领域发挥重要作用。

📄 摘要(原文)

Watermarking has emerged as a pivotal solution for content traceability and intellectual property protection in Large Vision-Language Models (LVLMs). However, vision-agnostic watermarks introduce visually irrelevant tokens and disrupt visual grounding by enforcing indiscriminate pseudo-random biases, while some semantic-aware methods incur prohibitive inference latency due to rejection sampling. In this paper, we propose the VIsual Semantic Adaptive Watermark (VISA-Mark), a novel framework that embeds detectable signals while strictly preserving visual fidelity. Our approach employs a lightweight, efficiently trained prefix-tuner to extract dynamic Visual-Evidence Weights, which quantify the evidentiary support for candidate tokens based on the visual input. These weights guide an adaptive vocabulary partitioning and logits perturbation mechanism, concentrating watermark strength specifically on visually-supported tokens. By actively aligning the watermark with visual evidence, VISA-Mark effectively maintains visual fidelity. Empirical results confirm that VISA-Mark outperforms conventional methods with a 7.8% improvement in visual consistency (Chair-I) and superior semantic fidelity. The framework maintains highly competitive detection accuracy (96.88% AUC) and robust attack resilience (99.3%) without sacrificing inference efficiency, effectively establishing a new standard for reliability-preserving multimodal watermarking.