VLA-Mark: A cross modal watermark for large vision-language alignment model

作者: Shuliang Liu, Qi Zheng, Jesse Jiaxi Xu, Yibo Yan, Junyan Zhang, He Geng, Aiwei Liu, Peijie Jiang, Jia Liu, Yik-Cheung Tam, Xuming Hu

分类: cs.CV, cs.AI

发布日期: 2025-07-18 (更新: 2025-09-19)

备注: Accepted by the main conference, EMNLP 2025

💡 一句话要点

提出VLA-Mark，通过跨模态对齐的水印嵌入方法，保护视觉-语言模型的知识产权。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 水印技术 跨模态对齐 知识产权保护 语义一致性

📋 核心要点

现有文本水印方法破坏视觉-文本对齐，且易受攻击，无法有效保护视觉-语言模型的知识产权。
VLA-Mark通过跨模态对齐，在不重新训练模型的前提下，嵌入可检测的水印，同时保持语义保真度。
实验结果表明，VLA-Mark在水印检测率、语义保持和抗攻击性方面均优于现有方法。

📝 摘要（中文）

视觉-语言模型需要水印解决方案，以保护知识产权，同时不影响多模态一致性。现有的文本水印方法通过有偏的token选择和静态策略，破坏了视觉-文本对齐，使语义关键概念易受攻击。我们提出了VLA-Mark，一个视觉对齐框架，它嵌入可检测的水印，同时通过跨模态协调保持语义保真度。我们的方法集成了多尺度视觉-文本对齐指标，结合局部patch亲和力、全局语义一致性和上下文注意力模式，以指导水印注入，无需模型重新训练。熵敏感机制动态平衡水印强度和语义保持，在低不确定性生成阶段优先考虑视觉基础。实验表明，PPL降低了7.4%，BLEU提高了26.6%，检测率接近完美（98.8% AUC）。该框架对释义和同义词替换等攻击表现出96.1%的攻击弹性，同时保持文本-视觉一致性，为高质量保持的多模态水印建立了新标准。

🔬 方法详解

问题定义：现有的文本水印方法在应用于视觉-语言模型时，会破坏视觉和文本之间的对齐关系，导致生成的内容在语义上不一致。这些方法通常采用有偏的token选择策略和静态的水印强度，使得模型容易受到攻击，并且无法有效地保护模型的知识产权。因此，需要一种能够保持视觉-文本一致性，同时具有高检测率和抗攻击性的水印方法。

核心思路：VLA-Mark的核心思路是通过跨模态对齐来指导水印的嵌入过程，从而在保持语义保真度的同时，实现可检测的水印。该方法利用视觉和文本之间的关联性，通过多尺度视觉-文本对齐指标来确定水印的注入位置和强度，确保水印的嵌入不会破坏视觉和文本之间的语义一致性。

技术框架：VLA-Mark框架主要包含以下几个模块：1) 多尺度视觉-文本对齐模块：该模块用于计算局部patch亲和力、全局语义一致性和上下文注意力模式等指标，从而评估视觉和文本之间的对齐程度。2) 熵敏感水印注入模块：该模块根据生成过程中的不确定性（熵）动态调整水印的强度，在低不确定性阶段优先考虑视觉基础。3) 水印检测模块：该模块用于检测生成文本中是否包含预先嵌入的水印。整个框架无需模型重新训练，可以直接应用于现有的视觉-语言模型。

关键创新：VLA-Mark的关键创新在于其跨模态对齐的水印嵌入方法。与传统的文本水印方法不同，VLA-Mark充分利用了视觉和文本之间的关联性，通过多尺度视觉-文本对齐指标来指导水印的注入，从而在保持语义保真度的同时，实现高检测率和抗攻击性。此外，熵敏感机制能够动态调整水印强度，进一步提升了水印的鲁棒性。

关键设计：VLA-Mark的关键设计包括：1) 多尺度视觉-文本对齐指标的选取，包括局部patch亲和力、全局语义一致性和上下文注意力模式。2) 熵敏感机制的具体实现，例如如何计算生成过程中的不确定性，以及如何根据不确定性动态调整水印强度。3) 水印检测算法的设计，需要考虑如何在高噪声环境下准确检测水印的存在。

🖼️ 关键图片

📊 实验亮点

VLA-Mark在实验中表现出显著的优势。相较于传统方法，PPL降低了7.4%，BLEU提高了26.6%，表明其在保持语义一致性方面表现更佳。水印检测的AUC达到了98.8%，接近完美检测。此外，VLA-Mark对释义和同义词替换等攻击表现出96.1%的攻击弹性，证明了其强大的抗攻击能力。

🎯 应用场景

VLA-Mark可应用于各种视觉-语言模型的知识产权保护，例如图像描述生成、视觉问答、文本到图像生成等。通过嵌入水印，可以有效防止未经授权的模型复制和滥用，保护模型开发者的权益。该技术还有助于提高生成内容的安全性，例如防止恶意用户利用模型生成有害信息。

📄 摘要（原文）

Vision-language models demand watermarking solutions that protect intellectual property without compromising multimodal coherence. Existing text watermarking methods disrupt visual-textual alignment through biased token selection and static strategies, leaving semantic-critical concepts vulnerable. We propose VLA-Mark, a vision-aligned framework that embeds detectable watermarks while preserving semantic fidelity through cross-modal coordination. Our approach integrates multiscale visual-textual alignment metrics, combining localized patch affinity, global semantic coherence, and contextual attention patterns, to guide watermark injection without model retraining. An entropy-sensitive mechanism dynamically balances watermark strength and semantic preservation, prioritizing visual grounding during low-uncertainty generation phases. Experiments show 7.4% lower PPL and 26.6% higher BLEU than conventional methods, with near-perfect detection (98.8% AUC). The framework demonstrates 96.1\% attack resilience against attacks such as paraphrasing and synonym substitution, while maintaining text-visual consistency, establishing new standards for quality-preserving multimodal watermarking

VLA-Mark: A cross modal watermark for large vision-language alignment model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理