ActiveMark: on watermarking of visual foundation models via massive activations
作者: Anna Chistyakova, Mikhail Pautov
分类: cs.CV, cs.AI
发布日期: 2025-10-06
💡 一句话要点
提出ActiveMark以解决视觉基础模型的水印保护问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉基础模型 水印技术 知识产权保护 所有权验证 计算机视觉 模型微调 数字水印
📋 核心要点
- 现有的视觉基础模型在知识产权保护方面存在漏洞,容易被不法用户非法再分发。
- 本文提出通过微调VFM的部分层和小型网络,将数字水印嵌入模型内部表示,以实现所有权验证。
- 实验表明,该方法在水印模型和非水印模型的误检概率上均显著降低,验证了其有效性。
📝 摘要(中文)
视觉基础模型(VFM)在大规模数据集上训练,能够针对多种下游任务进行微调,展现出卓越的性能和效率。然而,模型的知识产权保护面临挑战,尤其是防止不法用户非法再分发模型。本文提出了一种通过微调VFM的部分层以及小型编码-解码网络,将数字水印嵌入输入图像的内部表示的方法。该水印在经过微调的功能性模型中仍然可被检测,从而有效区分受保护模型的复制品与独立模型。理论与实验结果表明,该方法在水印模型和非水印模型的误检概率上均保持较低水平。
🔬 方法详解
问题定义:本文旨在解决视觉基础模型的知识产权保护问题,现有方法在防止模型被非法再分发方面存在不足,缺乏有效的所有权验证工具。
核心思路:提出通过微调VFM的部分层和小型编码-解码网络,将数字水印嵌入输入图像的内部表示,以确保水印在功能性模型中仍可检测。
技术框架:整体架构包括对VFM的部分层进行微调,以及设计一个小型的编码-解码网络,水印嵌入过程与模型训练相结合。
关键创新:该方法的创新之处在于水印的嵌入方式,使得即使在模型微调后,水印依然可被检测,显著提高了模型的所有权验证能力。
关键设计:在设计中,选择了特定的层进行微调,并设置了适当的损失函数以优化水印的嵌入效果,确保水印在不同任务下的可检测性。
📊 实验亮点
实验结果显示,该方法在水印模型的误检概率低于5%,而非水印模型的误检概率也保持在较低水平,验证了其在所有权验证中的有效性。与现有方法相比,本文提出的技术在水印的可检测性和模型微调后的稳定性上有显著提升。
🎯 应用场景
该研究在知识产权保护、模型分发和计算机视觉应用等领域具有广泛的潜在应用价值。通过有效的水印技术,模型开发者可以更好地保护其知识产权,防止不法使用,促进模型的合法使用与分发。未来,该技术可能会在更多的视觉任务和模型中得到应用,推动计算机视觉领域的健康发展。
📄 摘要(原文)
Being trained on large and vast datasets, visual foundation models (VFMs) can be fine-tuned for diverse downstream tasks, achieving remarkable performance and efficiency in various computer vision applications. The high computation cost of data collection and training motivates the owners of some VFMs to distribute them alongside the license to protect their intellectual property rights. However, a dishonest user of the protected model's copy may illegally redistribute it, for example, to make a profit. As a consequence, the development of reliable ownership verification tools is of great importance today, since such methods can be used to differentiate between a redistributed copy of the protected model and an independent model. In this paper, we propose an approach to ownership verification of visual foundation models by fine-tuning a small set of expressive layers of a VFM along with a small encoder-decoder network to embed digital watermarks into an internal representation of a hold-out set of input images. Importantly, the watermarks embedded remain detectable in the functional copies of the protected model, obtained, for example, by fine-tuning the VFM for a particular downstream task. Theoretically and experimentally, we demonstrate that the proposed method yields a low probability of false detection of a non-watermarked model and a low probability of false misdetection of a watermarked model.