SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning

作者: Junkai Chen, Zhijie Deng, Kening Zheng, Yibo Yan, Shuliang Liu, PeiJun Wu, Peijie Jiang, Jia Liu, Xuming Hu

分类: cs.CV

发布日期: 2025-02-18 (更新: 2025-10-25)

💡 一句话要点

提出SAFEERASER基准和Prompt Decouple Loss，提升多模态大语言模型安全性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 机器遗忘 安全性 Prompt解耦 安全答案拒绝率

📋 核心要点

现有的多模态大语言模型安全遗忘方法在保持模型性能和避免过度遗忘方面存在挑战。
论文提出Prompt Decouple Loss，通过解耦提示信息来缓解遗忘过程中的过度遗忘问题。
实验表明，结合PD Loss可以显著降低安全答案拒绝率，同时保持遗忘质量和模型效用。

📝 摘要（中文）

随着多模态大语言模型（MLLM）的发展，其潜在的安全问题日益突出。机器遗忘（MU）作为一种有效策略，用于遗忘训练数据中的特定知识，已被广泛应用于隐私保护。然而，MLLM中针对安全性的MU尚未得到充分探索。为了解决这个问题，我们提出了SAFEERASER，一个MLLM的安全遗忘基准，包含3000张图像和28.8K个VQA对。我们从遗忘质量和模型效用两个角度全面评估了遗忘方法。我们的研究结果表明，现有的MU方法难以在实现遗忘操作的同时保持模型性能，并且经常遭受过度遗忘。因此，我们引入了Prompt Decouple (PD) Loss，通过在遗忘过程中解耦提示来缓解过度遗忘。为了定量衡量PD Loss缓解的过度遗忘，我们提出了一种新的指标，称为安全答案拒绝率（SARR）。实验结果表明，将PD Loss与现有的遗忘方法相结合，可以有效地防止过度遗忘，并使LLaVA-7B和LLaVA-13B的SARR指标降低79.5%，同时保持遗忘质量和模型效用。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在进行机器遗忘时，难以兼顾遗忘质量、模型效用和避免过度遗忘的问题。现有的机器遗忘方法在应用于MLLM时，往往会导致模型性能下降，或者过度遗忘正常知识，影响模型的可用性。

核心思路：论文的核心思路是通过解耦提示（Prompt Decouple）来缓解过度遗忘。作者认为，在遗忘有害信息时，模型可能会过度依赖某些特定的提示，导致相关但无害的知识也被遗忘。通过解耦提示，可以使模型在遗忘有害信息的同时，更好地保留其他相关知识。

技术框架：SAFEERASER框架主要包含以下几个部分：首先，构建一个包含有害图像和VQA对的数据集，作为安全遗忘的基准。然后，使用现有的机器遗忘方法对模型进行训练，使其遗忘数据集中的有害信息。在遗忘过程中，引入Prompt Decouple Loss来缓解过度遗忘。最后，通过遗忘质量、模型效用和安全答案拒绝率（SARR）等指标来评估遗忘效果。

关键创新：论文的关键创新在于提出了Prompt Decouple Loss，这是一种新的损失函数，用于缓解机器遗忘过程中的过度遗忘问题。此外，论文还提出了安全答案拒绝率（SARR）这一新的指标，用于定量衡量过度遗忘的程度。SAFEERASER基准数据集的构建也为后续研究提供了便利。

关键设计：Prompt Decouple Loss的具体实现方式是，在遗忘过程中，将提示信息分解为多个部分，并对每个部分进行不同的处理。例如，可以对与有害信息相关的提示部分进行更强的遗忘，而对与正常知识相关的提示部分进行较弱的遗忘。SARR指标的计算方式是，统计模型拒绝回答安全问题的比例。通过最小化PD Loss，可以使模型在遗忘有害信息的同时，更好地保留其他相关知识，从而降低SARR。

🖼️ 关键图片

📊 实验亮点

实验结果表明，将Prompt Decouple Loss与现有的遗忘方法相结合，可以有效地防止过度遗忘，并使LLaVA-7B和LLaVA-13B的SARR指标降低79.5%，同时保持遗忘质量和模型效用。这表明该方法在提升多模态大语言模型的安全性方面具有显著效果。

🎯 应用场景

该研究成果可应用于各种多模态大语言模型，以提高其安全性，防止生成有害内容。例如，可以用于过滤社交媒体平台上的不当图片和文本，或者用于防止聊天机器人生成歧视性言论。该研究还有助于提升AI系统的可靠性和可信度，促进其在更广泛领域的应用。

📄 摘要（原文）

As Multimodal Large Language Models (MLLMs) develop, their potential security issues have become increasingly prominent. Machine Unlearning (MU), as an effective strategy for forgetting specific knowledge in training data, has been widely used in privacy protection. However, MU for safety in MLLM has yet to be fully explored. To address this issue, we propose SAFEERASER, a safety unlearning benchmark for MLLMs, consisting of 3,000 images and 28.8K VQA pairs. We comprehensively evaluate unlearning methods from two perspectives: forget quality and model utility. Our findings show that existing MU methods struggle to maintain model performance while implementing the forget operation and often suffer from over-forgetting. Hence, we introduce Prompt Decouple (PD) Loss to alleviate over-forgetting through decouple prompt during unlearning process. To quantitatively measure over-forgetting mitigated by PD Loss, we propose a new metric called Safe Answer Refusal Rate (SARR). Experimental results demonstrate that combining PD Loss with existing unlearning methods can effectively prevent over-forgetting and achieve a decrease of 79.5% in the SARR metric of LLaVA-7B and LLaVA-13B, while maintaining forget quality and model utility. Our code and dataset will be released upon acceptance. Warning: This paper contains examples of harmful language and images, and reader discretion is recommended.

SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理