AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection
作者: Jianbo Gao, Keke Gai, Jing Yu, Liehuang Zhu, Qi Wu
分类: cs.CR, cs.AI
发布日期: 2025-04-28
💡 一句话要点
提出AGATE:一种隐蔽的黑盒水印框架,用于多模态模型版权保护
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 版权保护 水印技术 对抗攻击 黑盒水印
📋 核心要点
- 现有水印方法易受恶意检测和伪造攻击,导致水印失效,无法有效保护多模态模型的版权。
- AGATE框架通过对抗性触发器生成和后转换模块,提升水印的隐蔽性和鲁棒性,抵抗恶意攻击。
- 实验表明,AGATE在图像-文本检索和图像分类任务中显著优于现有方法,并具有良好的抗攻击能力。
📝 摘要(中文)
大规模多模态人工智能模型的快速发展使其成为模型窃取的首要目标。现有方法通常选择分布外(OoD)数据作为后门水印,并通过重新训练原始模型来实现版权保护。然而,这些方法容易受到恶意检测和伪造攻击,导致水印失效。本文提出了模型无关的黑盒后门水印框架(AGATE),旨在解决多模态模型版权保护中的隐蔽性和鲁棒性挑战。具体而言,我们提出了一种对抗性触发器生成方法,从普通数据集中生成隐蔽的对抗性触发器,在保持视觉逼真度的同时引入语义偏移。为了缓解模型输出中的异常检测问题,我们提出了一个后转换模块,通过缩小对抗性触发器图像嵌入和文本嵌入之间的距离来校正模型输出。随后,提出了一个两阶段水印验证方法,通过比较有无转换模块的两个结果来判断当前模型是否侵权。实验结果表明,AGATE在多模态图像-文本检索和图像分类等下游任务中始终优于最先进的方法。此外,我们还验证了AGATE在两种对抗性攻击场景下的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决多模态模型版权保护中,现有水印方法隐蔽性和鲁棒性不足的问题。现有方法依赖于分布外数据作为水印,容易被检测和移除,或者被恶意伪造,无法有效保护模型版权。
核心思路:AGATE的核心思路是通过生成隐蔽的对抗性触发器,并利用后转换模块校正模型输出,从而提高水印的隐蔽性和鲁棒性。对抗性触发器在视觉上与正常数据相似,难以被检测;后转换模块则可以缓解因触发器引入的异常输出,进一步增强隐蔽性。
技术框架:AGATE框架主要包含三个模块:对抗性触发器生成模块、后转换模块和两阶段水印验证模块。对抗性触发器生成模块负责生成视觉上逼真但具有语义偏移的触发器;后转换模块用于校正模型输出,缩小触发器图像嵌入和文本嵌入之间的距离;两阶段水印验证模块通过比较有无后转换模块的结果来判断模型是否侵权。
关键创新:AGATE的关键创新在于对抗性触发器的生成方法和后转换模块的设计。对抗性触发器生成方法能够生成视觉上难以区分的触发器,提高了水印的隐蔽性。后转换模块则通过校正模型输出,缓解了因触发器引入的异常,进一步增强了隐蔽性。
关键设计:对抗性触发器生成模块使用对抗训练方法,目标是生成能够欺骗模型的触发器,同时保持视觉逼真度。后转换模块使用神经网络学习一个映射,将触发器图像的嵌入映射到与其对应的文本嵌入附近。两阶段水印验证模块则通过统计显著性检验来判断模型是否侵权。
🖼️ 关键图片
📊 实验亮点
AGATE在五个数据集上的多模态图像-文本检索和图像分类任务中,均优于现有最先进的方法。在对抗攻击场景下,AGATE依然表现出良好的鲁棒性,证明了其在实际应用中的有效性。具体性能数据未在摘要中给出,需参考论文正文。
🎯 应用场景
AGATE可应用于各种多模态人工智能模型的版权保护,例如图像-文本检索、视觉问答、图像生成等。该方法能够有效防止模型被非法复制、篡改或商业化,维护模型所有者的合法权益,促进人工智能技术的健康发展。
📄 摘要(原文)
Recent advancement in large-scale Artificial Intelligence (AI) models offering multimodal services have become foundational in AI systems, making them prime targets for model theft. Existing methods select Out-of-Distribution (OoD) data as backdoor watermarks and retrain the original model for copyright protection. However, existing methods are susceptible to malicious detection and forgery by adversaries, resulting in watermark evasion. In this work, we propose Model-\underline{ag}nostic Black-box Backdoor W\underline{ate}rmarking Framework (AGATE) to address stealthiness and robustness challenges in multimodal model copyright protection. Specifically, we propose an adversarial trigger generation method to generate stealthy adversarial triggers from ordinary dataset, providing visual fidelity while inducing semantic shifts. To alleviate the issue of anomaly detection among model outputs, we propose a post-transform module to correct the model output by narrowing the distance between adversarial trigger image embedding and text embedding. Subsequently, a two-phase watermark verification is proposed to judge whether the current model infringes by comparing the two results with and without the transform module. Consequently, we consistently outperform state-of-the-art methods across five datasets in the downstream tasks of multimodal image-text retrieval and image classification. Additionally, we validated the robustness of AGATE under two adversarial attack scenarios.