To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model

📄 arXiv: 2605.14291v1 📥 PDF

作者: Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu

分类: cs.CR, cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2026-05-14


💡 一句话要点

MMGuard:通过对抗性扰动保护多模态数据免受未经授权的LVLM微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据保护 视觉语言模型 对抗性扰动 主动防御 跨模态绑定 版权保护 隐私保护

📋 核心要点

  1. 现有LVLM易被未经授权的数据微调,导致数据版权和隐私风险,而传统防御方法属于事后补救。
  2. MMGuard通过注入难以察觉的扰动,使LVLM过度拟合噪声,从而在正常推理时性能下降。
  3. 实验证明,MMGuard在多种威胁模型下,对多个LVLM模型和数据集均有效,实现了主动防御。

📝 摘要(中文)

大型视觉语言模型(LVLM)的快速发展伴随着未经授权的网络多模态数据抓取和训练,给数据所有者带来严重的版权和隐私风险。现有的对策,如机器卸载和水印,本质上是事后方法,仅在知识产权侵权发生后才起作用。本文提出了MMGuard,旨在使数据所有者能够主动保护其多模态数据免受未经授权的LVLM微调。MMGuard通过注入人类难以察觉的扰动来生成不可学习的样本,从而主动利用LVLM的学习动态。通过最小化训练损失,该扰动创建了一个优化捷径,导致模型过度拟合噪声,从而在推理期间缺少扰动时降低下游性能。为了进一步加强这种防御,MMGuard引入了一种跨模态绑定破坏,策略性地转移LVLM注意力,以强制噪声和训练目标之间产生虚假的相关性,并提供理论保证。通过集成学习策略增强跨模型可迁移性,MMGuard针对六个数据集上的九个开源LVLM进行了评估。全面的结果表明,在白盒、灰盒和黑盒威胁模型下,MMGuard提供了有效、隐蔽和强大的保护,在主动防御激进的微调利用方面建立了机制优势。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLM)被恶意微调的问题,即攻击者未经授权使用受保护的多模态数据来提升其LVLM的性能。现有防御方法,如水印和机器卸载,都是在侵权行为发生后才采取的措施,无法主动阻止恶意微调,且效果有限。

核心思路:MMGuard的核心思路是主动干扰LVLM的学习过程,通过在训练数据中注入精心设计的、人类难以察觉的扰动,使模型在包含扰动的数据上表现良好,但在正常数据上性能下降。这种扰动使得模型“学到”了虚假的相关性,从而在没有扰动的情况下无法泛化。

技术框架:MMGuard主要包含两个关键模块:扰动生成模块和跨模态绑定破坏模块。扰动生成模块通过最小化训练损失来生成扰动,使模型快速拟合噪声。跨模态绑定破坏模块则通过改变LVLM的注意力机制,强制模型将噪声与训练目标关联起来。此外,还采用了集成学习策略来提高扰动的跨模型迁移性。整体流程是:首先,对原始多模态数据添加扰动;然后,使用添加扰动的数据训练LVLM;最后,在正常数据上评估LVLM的性能。

关键创新:MMGuard的关键创新在于其主动防御的策略,以及跨模态绑定破坏机制。与传统的事后防御方法不同,MMGuard在数据被用于恶意微调之前就对其进行了保护。跨模态绑定破坏机制则通过操纵LVLM的注意力,增强了扰动的有效性,使其更难被移除或绕过。

关键设计:MMGuard的关键设计包括:1) 扰动的生成方式,通过最小化训练损失来确保扰动能够有效地干扰模型的学习;2) 跨模态绑定破坏的实现,通过修改注意力权重来强制模型学习噪声与目标之间的虚假相关性;3) 集成学习策略,通过使用多个LVLM来生成扰动,提高扰动在不同模型之间的迁移性。具体损失函数的设计和注意力权重的调整方式在论文中有详细描述,但此处不便展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMGuard在白盒、灰盒和黑盒攻击下均能有效降低LVLM的性能。例如,在某些数据集上,MMGuard可以将LVLM的准确率降低超过50%。此外,MMGuard还具有良好的隐蔽性,生成的扰动难以被人类察觉。与现有防御方法相比,MMGuard在防御效果和隐蔽性方面均具有优势。

🎯 应用场景

MMGuard可应用于保护各种多模态数据,如图像、视频和文本,防止未经授权的LVLM微调。例如,摄影师可以使用MMGuard保护其作品免受AI模型的侵权使用。该技术还有助于维护数据隐私,防止敏感信息被恶意模型学习和泄露。未来,MMGuard有望成为多模态数据版权保护的重要组成部分。

📄 摘要(原文)

The rapid advancement of Large Vision-Language Models (LVLMs) is increasingly accompanied by unauthorized scraping and training on multimodal web data, posing severe copyright and privacy risks to data owners. Existing countermeasures, such as machine unlearning and watermarks, are inherent post-hoc approaches that act only after intellectual property infringement has already occurred. In this work, we propose MMGuard to empower data owners to proactively protect their multimodal data against unauthorized LVLM fine-tuning. MMGuard generates unlearnable examples by injecting human-imperceptible perturbations that actively exploit the learning dynamics of LVLMs. By minimizing the training loss, the perturbation creates an optimization shortcut, causing the model to overfit to the noise and thereby degrading downstream performance when the perturbation is absent during inference. To further strengthen this defense, MMGuard introduces a cross-modal binding disruption, strategically shifting LVLM attention to enforce a spurious correlation between the noise and the training target with theoretical guarantees. Enhanced by an ensemble learning strategy for cross-model transferability, MMGuard is evaluated against nine open-source LVLMs across six datasets. Our comprehensive results demonstrate effective, stealthy, and robust protection under white-box, gray-box, and black-box threat models, establishing a mechanistic advantage in proactively defending against aggressive fine-tuning exploitation.