On the Robustness of Machine Unlearning for Vision-Language Models

📄 arXiv: 2605.26992v1 📥 PDF

作者: Yujie Lin, Kaidi Jia, Jiayao Ma, Chengyi Yang, Jinsong Su

分类: cs.CV

发布日期: 2026-05-26

🔗 代码/项目: GITHUB


💡 一句话要点

针对视觉-语言模型,提出多模态知识遗忘的鲁棒性分析与攻击方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 机器遗忘 鲁棒性分析 对抗攻击 多模态学习

📋 核心要点

  1. 现有视觉-语言模型的机器遗忘方法缺乏鲁棒性,容易受到上下文提示和下游重训练的攻击,导致知识复现。
  2. 论文提出三种攻击范式,旨在通过上下文提示或下游重训练来激活已被遗忘的多模态知识,评估遗忘方法的安全性。
  3. 实验结果表明,现有VLM遗忘方法在提出的攻击下表现脆弱,表明这些方法只是隐藏而非彻底删除了目标知识。

📝 摘要(中文)

视觉-语言模型(VLM)可能会记忆训练数据中不期望的信息,因此对机器遗忘的研究兴趣日益增长。本文首次对VLM遗忘进行了系统的调研和鲁棒性分析。我们提供了一个全面的分类,并回顾了现有的VLM遗忘方法,同时在多种提示设置下进行了统一的评估。然后,我们提出了三种攻击范式,以检验被遗忘的多模态知识是否可以通过上下文提示或下游重训练来重新激活。大量的实验表明,许多现有方法在这些攻击下仍然很脆弱,表明当前的方法通常是隐藏而不是完全删除目标知识。我们的研究为当前VLM遗忘方法的鲁棒性和局限性提供了新的见解,并强调了对更可靠的多模态遗忘策略的需求。代码已在https://github.com/XMUDeepLIT/VLM-UnL-Attack上发布。

🔬 方法详解

问题定义:现有的视觉-语言模型(VLM)的机器遗忘方法,在面对恶意攻击时,其遗忘效果并不理想。即使模型经过了“遗忘”处理,攻击者仍然可以通过巧妙的上下文提示或下游任务的重训练,重新激活模型中已被删除或修改的敏感信息。这暴露了现有遗忘方法的鲁棒性问题,即它们可能只是隐藏了知识,而没有真正地将其从模型中移除。

核心思路:论文的核心思路是通过设计有效的攻击方法,来评估现有VLM遗忘技术的安全性。具体来说,就是模拟攻击者可能采取的手段,尝试重新激活模型中已被遗忘的知识。如果攻击成功,则说明该遗忘方法存在漏洞,需要进一步改进。这种对抗性的评估方式,能够更全面地揭示遗忘方法的不足之处。

技术框架:论文主要包含以下几个阶段:1) 对现有的VLM遗忘方法进行分类和回顾;2) 在多种提示设置下,对这些方法进行统一的评估;3) 提出三种攻击范式,包括基于上下文提示的攻击和基于下游重训练的攻击;4) 通过大量的实验,评估现有遗忘方法在这些攻击下的表现。整个框架围绕着“攻击-防御”的思路展开,旨在发现现有遗忘方法的弱点。

关键创新:论文的关键创新在于提出了三种针对VLM遗忘的攻击范式。这些攻击方法模拟了现实世界中可能出现的恶意场景,能够有效地评估遗忘方法的鲁棒性。与以往的研究不同,该论文不仅仅关注遗忘方法本身的性能,更关注其在对抗性环境下的表现。这种关注点上的转变,使得研究更具有实际意义。

关键设计:三种攻击范式包括:1) 上下文提示攻击:通过精心设计的提示语,诱导模型输出已被遗忘的知识;2) 对抗性提示攻击:生成对抗性的提示语,使得模型在遗忘任务上表现不佳;3) 下游重训练攻击:在下游任务上对遗忘后的模型进行重训练,观察是否能够恢复已被遗忘的知识。这些攻击方法的设计,充分考虑了VLM的特点,并针对不同的遗忘方法进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的VLM遗忘方法在提出的三种攻击范式下表现出明显的脆弱性。例如,通过上下文提示攻击,可以显著提高模型输出已遗忘知识的概率。下游重训练攻击也能够有效地恢复部分被遗忘的信息。这些结果表明,现有方法仅仅是隐藏而非彻底删除了目标知识,需要进一步改进。

🎯 应用场景

该研究成果可应用于保护视觉-语言模型中的敏感信息,例如人脸识别、医疗影像等领域。通过提高机器遗忘的鲁棒性,可以有效防止模型泄露隐私数据或被恶意利用。未来的研究可以探索更有效的多模态遗忘策略,以应对日益复杂的攻击手段。

📄 摘要(原文)

Vision-language models (VLMs) may memorize undesirable information from training data, motivating growing interest in machine unlearning. In this work, we present the first systematic survey and robustness analysis of VLM unlearning. We provide a comprehensive taxonomy and review of existing VLM unlearning methods, together with unified evaluations under multiple prompt settings. We then propose three attack paradigms to examine whether forgotten multimodal knowledge can be reactivated through contextual prompting or downstream retraining. Extensive experiments show that many existing methods remain vulnerable under these attacks, indicating that current approaches often hide rather than fully remove target knowledge. Our study provides new insights into the robustness and limitations of current VLM unlearning methods and highlights the need for more reliable multimodal unlearning strategies. Code is available at https://github.com/XMUDeepLIT/VLM-UnL-Attack.