ActiveMark: on watermarking of visual foundation models via massive activations
作者: Anna Chistyakova, Mikhail Pautov
分类: cs.CV, cs.AI
发布日期: 2025-10-06
💡 一句话要点
ActiveMark:通过大规模激活水印视觉基础模型,实现所有权验证。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉基础模型 水印技术 所有权验证 知识产权保护 深度学习 编码器-解码器网络
📋 核心要点
- 视觉基础模型面临非法复制和再分发的风险,现有方法难以有效验证模型的所有权,保护知识产权。
- 该论文提出ActiveMark方法,通过微调VFM的少量层和一个编码器-解码器网络,将水印嵌入到图像的内部表示中。
- 实验证明,该方法能有效区分水印模型和非水印模型,同时保证水印在下游任务微调后依然可检测。
📝 摘要(中文)
视觉基础模型(VFMs)在大型数据集上训练,可以针对各种下游任务进行微调,在各种计算机视觉应用中实现卓越的性能和效率。数据收集和训练的高计算成本促使一些VFM的所有者通过许可分发它们,以保护其知识产权。然而,受保护模型的副本的不诚实用户可能会非法地重新分发它,例如,为了获利。因此,可靠的所有权验证工具的开发在今天非常重要,因为这些方法可以用于区分受保护模型的重新分发的副本和独立的模型。在本文中,我们提出了一种通过微调VFM的一小组表达层以及一个小的编码器-解码器网络,将数字水印嵌入到输入图像的保留集的内部表示中,从而验证视觉基础模型的所有权的方法。重要的是,嵌入的水印在受保护模型的功能副本中仍然可检测到,例如,通过为特定的下游任务微调VFM获得。从理论上和实验上,我们证明了该方法产生非水印模型误检率低和水印模型漏检率低的优点。
🔬 方法详解
问题定义:视觉基础模型(VFMs)的训练成本高昂,因此模型所有者需要保护其知识产权。然而,未经授权的复制和再分发行为难以追踪。现有的水印方法可能无法在模型经过微调后保持水印的鲁棒性,或者容易被移除,因此需要一种更可靠的所有权验证方法。
核心思路:该论文的核心思路是在VFM的内部表示中嵌入数字水印,这些水印应该对下游任务的微调具有鲁棒性,并且能够区分原始模型和未经授权的复制品。通过在模型的特定层中引入细微的修改,将水印信息编码到模型的激活值中。
技术框架:该方法包含以下几个主要步骤:1) 选择VFM中少量具有表达能力的层进行微调。2) 设计一个小的编码器-解码器网络,用于将水印信息编码到输入图像的内部表示中。3) 使用一个保留的图像数据集,通过微调选定的VFM层和编码器-解码器网络,将水印嵌入到模型的内部表示中。4) 在所有权验证阶段,使用相同的编码器-解码器网络提取水印,并判断模型是否包含预先嵌入的水印。
关键创新:该方法的关键创新在于选择性地微调VFM的少量层,并结合编码器-解码器网络,实现了水印的鲁棒性和隐蔽性。与直接修改模型参数相比,该方法通过修改激活值来嵌入水印,从而降低了对模型性能的影响,并提高了水印的抗攻击能力。
关键设计:编码器-解码器网络的结构需要仔细设计,以确保水印的有效嵌入和提取。损失函数的设计需要平衡水印的鲁棒性和模型性能。微调VFM的层的选择也至关重要,需要选择对模型性能影响较小但具有足够表达能力的层。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在保持较低的误检率和漏检率的同时,能够有效地验证VFM的所有权。即使在模型经过下游任务的微调后,嵌入的水印仍然可以被检测到,证明了该方法的鲁棒性。该方法在多个VFM上进行了验证,证明了其通用性。
🎯 应用场景
该研究成果可应用于视觉基础模型的所有权保护,防止未经授权的复制和再分发。模型开发者可以使用该方法为自己的模型添加数字水印,以便在发现可疑模型时进行所有权验证。这有助于维护知识产权,促进视觉基础模型的健康发展。
📄 摘要(原文)
Being trained on large and vast datasets, visual foundation models (VFMs) can be fine-tuned for diverse downstream tasks, achieving remarkable performance and efficiency in various computer vision applications. The high computation cost of data collection and training motivates the owners of some VFMs to distribute them alongside the license to protect their intellectual property rights. However, a dishonest user of the protected model's copy may illegally redistribute it, for example, to make a profit. As a consequence, the development of reliable ownership verification tools is of great importance today, since such methods can be used to differentiate between a redistributed copy of the protected model and an independent model. In this paper, we propose an approach to ownership verification of visual foundation models by fine-tuning a small set of expressive layers of a VFM along with a small encoder-decoder network to embed digital watermarks into an internal representation of a hold-out set of input images. Importantly, the watermarks embedded remain detectable in the functional copies of the protected model, obtained, for example, by fine-tuning the VFM for a particular downstream task. Theoretically and experimentally, we demonstrate that the proposed method yields a low probability of false detection of a non-watermarked model and a low probability of false misdetection of a watermarked model.