Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score

📄 arXiv: 2605.02206v1 📥 PDF

作者: Abdullah Ahmad Khan, Hamid Laga, Ferdous Sohel

分类: cs.CV, cs.LG

发布日期: 2026-05-04

备注: 9 Pages , 6 figures, Neurips 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出统一质量评分UQS,解决多模态机器遗忘评估指标不一致问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 多模态学习 视觉-语言模型 评估指标 统一质量评分 数据隐私 GDPR

📋 核心要点

  1. 现有的多模态机器遗忘评估指标(如FA、RA、MIA、AD、JS)在不同数据集上产生矛盾的排名结果,缺乏一致性。
  2. 提出统一质量评分(UQS),通过计算各指标与oracle模型距离的Spearman相关性来确定权重,从而综合评估遗忘效果。
  3. 实验表明,UQS在随机权重扰动下能保持稳定的排名,且RA指标具有最强的可靠性,FA指标则呈负相关。

📝 摘要(中文)

视觉-语言模型(VLMs)中的机器遗忘对于遵守通用数据保护条例(GDPR)至关重要,但目前的评估方法并不一致。本文对多模态遗忘中的指标可靠性进行了首次系统研究。五个标准指标,即遗忘准确率(FA)、保留准确率(RA)、成员推理攻击(MIA)、激活距离(AD)和JS散度(JS),在三个VQA基准(MLLMU-Bench、UnLOK-VQA、MMUBench)上产生了相互矛盾的方法排名。对36个遗忘后的LLaVA-1.5-7B模型进行的Kendall tau分析显示,存在两个相反的集群,{FA, RA, MIA}和{AD, JS},其中tau_FA_AD = -0.26,并在BLIP-2 OPT-2.7B上重现。多模态VQA(平均tau = 0.086)中的一致性低于单模态分类(平均tau = 0.158;差异 = 0.072),表明双重图像和文本路径放大了不一致性。本文引入了统一质量评分(UQS),这是一个综合指标,其权重来自每个指标与oracle距离d(M_hat, M_star)的Spearman相关性,其中M_star是仅在保留集上重新训练的oracle模型。RA显示出最强的可靠性(rho = 0.484,p = 0.003),而FA呈负相关(rho = -0.418,p = 0.011)。UQS在100次随机权重扰动下产生稳定的排名(tau = 0.647 +- 0.262)。本文发布了基准、36个检查点和一个交互式排行榜。代码和预计算结果可在https://github.com/neurips26/UnifiedUnl获得。

🔬 方法详解

问题定义:多模态机器遗忘旨在从预训练的视觉-语言模型中移除特定数据的影响,使其表现得好像从未见过这些数据。然而,现有的评估指标在衡量遗忘效果时存在不一致性,导致研究人员难以选择合适的遗忘方法并进行公平比较。不同的指标可能会对同一种遗忘方法给出截然不同的评价,这阻碍了该领域的发展。

核心思路:本文的核心思路是构建一个统一的质量评分(UQS),该评分能够综合考虑多个评估指标,并根据它们与理想遗忘状态(由oracle模型表示)的相关性进行加权。通过这种方式,UQS能够更可靠地评估遗忘方法的效果,并提供更一致的排名。UQS的设计旨在解决现有评估指标之间存在的矛盾,并为多模态机器遗忘领域提供一个更可靠的评估标准。

技术框架:UQS的计算流程如下:1) 使用不同的机器遗忘方法对预训练的视觉-语言模型进行遗忘。2) 使用多个评估指标(FA、RA、MIA、AD、JS)评估遗忘后的模型。3) 计算每个评估指标与oracle模型(仅在保留集上训练的模型)距离的Spearman相关性。4) 使用Spearman相关性作为权重,将多个评估指标组合成一个统一的质量评分UQS。5) 使用UQS对不同的遗忘方法进行排名。

关键创新:本文最重要的技术创新点在于提出了统一质量评分(UQS),它能够综合考虑多个评估指标,并根据它们与oracle模型的相关性进行加权。与现有方法相比,UQS能够更可靠地评估遗忘方法的效果,并提供更一致的排名。此外,本文还对多模态机器遗忘中的指标可靠性进行了首次系统研究,揭示了不同指标之间存在的矛盾,并为UQS的设计提供了理论基础。

关键设计:UQS的关键设计在于使用Spearman相关性作为权重。Spearman相关性衡量了每个评估指标与oracle模型距离之间的单调关系。通过使用Spearman相关性作为权重,UQS能够更准确地反映每个评估指标对遗忘效果的贡献。此外,本文还对UQS的稳定性进行了评估,结果表明UQS在随机权重扰动下能够保持稳定的排名。

📊 实验亮点

实验结果表明,统一质量评分(UQS)在100次随机权重扰动下能够保持稳定的排名(tau = 0.647 +- 0.262)。保留准确率(RA)显示出最强的可靠性(rho = 0.484,p = 0.003),而遗忘准确率(FA)呈负相关(rho = -0.418,p = 0.011)。这些结果表明,UQS能够有效地综合多个评估指标,并提供一个更可靠的遗忘效果评估。

🎯 应用场景

该研究成果可应用于需要遵守数据隐私法规(如GDPR)的视觉-语言模型应用中,例如图像搜索、视觉问答和多模态内容生成。通过使用UQS评估和选择合适的机器遗忘方法,可以确保模型能够有效地移除用户数据,从而保护用户隐私并避免法律风险。该研究还有助于推动多模态机器遗忘领域的发展,并为未来的研究提供一个更可靠的评估标准。

📄 摘要(原文)

Machine unlearning in Vision-Language Models (VLMs) is required for compliance with the General Data Protection Regulation (GDPR), yet current evaluation practices are inconsistent. We present the first systematic study of metric reliability in multimodal unlearning. Five standard metrics, Forget Accuracy (FA), Retain Accuracy (RA), Membership Inference Attack (MIA), Activation Distance (AD), and JS divergence (JS), yield conflicting method rankings across three VQA benchmarks (MLLMU-Bench, UnLOK-VQA, MMUBench). Kendall tau analysis over 36 unlearned LLaVA-1.5-7B models reveals two opposing clusters, {FA, RA, MIA} and {AD, JS}, with tau_FA_AD = -0.26, reproduced on BLIP-2 OPT-2.7B. Agreement is lower in multimodal VQA (average tau = 0.086) than in unimodal classification (average tau = 0.158; difference = 0.072), indicating that dual image-and-text pathways amplify inconsistency. We introduce the Unified Quality Score (UQS), a composite metric with weights derived from each metric's Spearman correlation with the oracle distance d(M_hat, M_star), where M_star is the oracle model retrained only on the retain set. RA shows the strongest reliability (rho = 0.484, p = 0.003), while FA is negatively correlated (rho = -0.418, p = 0.011). UQS yields stable rankings under 100 random weight perturbations (tau = 0.647 +- 0.262). We release the benchmark, 36 checkpoints, and an interactive leaderboard. Code and pre-computed results are available at https://github.com/neurips26/UnifiedUnl.