SALMUBench: A Benchmark for Sensitive Association-Level Multimodal Unlearning

📄 arXiv: 2603.26316v1 📥 PDF

作者: Cai Selvas-Sala, Lei Kang, Lluis Gomez

分类: cs.CV, cs.LG

发布日期: 2026-03-27

备注: Accepted to CVPR 2026. Project page: http://cvc-mmu.github.io/salmubench


💡 一句话要点

SALMUBench:用于敏感关联级别多模态模型卸载的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 机器卸载 隐私保护 基准测试 对比学习

📋 核心要点

  1. 现有多模态模型卸载方法缺乏细粒度的关联级别遗忘评估,难以诊断卸载效果和附带损害。
  2. SALMUBench通过构建包含人物-属性关联的合成数据集和新颖的评估协议,精确测量卸载效果。
  3. 实验表明,现有方法在有效遗忘和避免过度泛化之间存在权衡,SALMUBench为未来研究设定了新标准。

📝 摘要(中文)

随着像CLIP这样的多模态模型在下游系统中变得不可或缺,移除敏感信息的需求至关重要。然而,对比训练编码器的机器卸载仍然未被充分探索,并且现有的评估未能诊断细粒度的、关联级别的遗忘。我们引入了SALMUBench(敏感关联级别多模态卸载),这是一个建立在包含6万个人物-属性关联的合成数据集和两个基础模型之上的基准测试:一个是被这些数据污染的受损模型,以及一个没有这些数据的干净模型。为了隔离卸载效果,两者都在相同的4亿对保留基础数据上从头开始训练,而受损模型还额外在敏感数据集上进行训练。我们提出了一种新颖的评估协议,具有结构化的保留集(保留身份、保留关联),以精确测量卸载效果和附带损害。我们的基准测试表明,虽然实用高效的删除是可行的,但当前的方法表现出明显的失败模式:它们要么未能有效地遗忘,要么通过擦除超出预期范围的内容而过度泛化。SALMUBench为全面的卸载评估设定了新的标准,我们公开发布我们的数据集、模型、评估脚本和排行榜,以促进未来的研究。

🔬 方法详解

问题定义:论文旨在解决多模态模型中敏感信息的卸载问题,即如何从已经训练好的模型中移除特定的敏感关联,同时尽可能保持模型在其他任务上的性能。现有方法的痛点在于缺乏细粒度的评估,无法准确衡量卸载效果,并且容易出现过度泛化的问题,导致模型性能下降。

核心思路:论文的核心思路是构建一个专门用于评估多模态模型卸载效果的基准测试,该基准测试包含一个合成数据集和一个新颖的评估协议。通过控制数据集中的关联关系,可以精确测量模型在特定关联上的遗忘程度,以及对其他关联的影响。

技术框架:SALMUBench基准测试包含以下几个主要组成部分:1) 一个包含6万个人物-属性关联的合成数据集,用于训练和评估模型;2) 两个基础模型:一个是被敏感数据污染的受损模型和一个没有敏感数据的干净模型;3) 一个新颖的评估协议,包含结构化的保留集(保留身份、保留关联),用于精确测量卸载效果和附带损害。

关键创新:论文最重要的技术创新点在于提出了一个专门用于评估多模态模型卸载效果的基准测试,该基准测试能够精确测量模型在特定关联上的遗忘程度,以及对其他关联的影响。此外,论文还提出了一种新颖的评估协议,包含结构化的保留集,能够更全面地评估卸载效果。

关键设计:数据集包含6万个人物-属性关联,这些关联是人工合成的,可以精确控制关联的强度和类型。模型采用对比学习的方式进行训练,损失函数旨在最大化正样本之间的相似度,最小化负样本之间的相似度。评估协议包含两种类型的保留集:保留身份和保留关联,用于评估模型在不同情况下的卸载效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SALMUBench基准测试揭示了现有卸载方法的局限性,表明它们要么未能有效地遗忘敏感关联,要么过度泛化导致模型性能下降。该基准测试为未来的卸载算法研究提供了重要的评估工具和方向,有助于开发更有效、更安全的隐私保护技术。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私的多模态应用场景,例如图像搜索、推荐系统、社交媒体等。通过使用SALMUBench评估和改进卸载算法,可以有效移除模型中的敏感信息,降低隐私泄露的风险,提升用户对AI系统的信任度。未来,该研究可以扩展到更复杂的多模态模型和更广泛的隐私保护场景。

📄 摘要(原文)

As multimodal models like CLIP become integral to downstream systems, the need to remove sensitive information is critical. However, machine unlearning for contrastively-trained encoders remains underexplored, and existing evaluations fail to diagnose fine-grained, association-level forgetting. We introduce SALMUBench (Sensitive Association-Level Multimodal Unlearning), a benchmark built upon a synthetic dataset of 60K persona-attribute associations and two foundational models: a Compromised model polluted with this data, and a Clean model without it. To isolate unlearning effects, both are trained from scratch on the same 400M-pair retain base, with the Compromised model additionally trained on the sensitive set. We propose a novel evaluation protocol with structured holdout sets (holdout identity, holdout association) to precisely measure unlearning efficacy and collateral damage. Our benchmark reveals that while utility-efficient deletion is feasible, current methods exhibit distinct failure modes: they either fail to forget effectively or over-generalize by erasing more than intended. SALMUBench sets a new standard for comprehensive unlearning evaluation, and we publicly release our dataset, models, evaluation scripts, and leaderboards to foster future research.