OFFSIDE: Benchmarking Unlearning Misinformation in Multimodal Large Language Models
作者: Hao Zheng, Zirui Pang, Ling li, Zhijie Deng, Yuhan Pu, Zhaowei Zhu, Xiaobo Xia, Jiaheng Wei
分类: cs.AI, cs.CL
发布日期: 2025-10-26 (更新: 2026-01-03)
🔗 代码/项目: GITHUB
💡 一句话要点
OFFSIDE:针对多模态大语言模型中错误信息卸载的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 机器卸载 错误信息卸载 基准测试 足球转会谣言
📋 核心要点
- 现有MLLM的机器卸载基准缺乏图像多样性,存在不准确性,且评估场景不足,难以反映真实应用。
- OFFSIDE基准通过足球转会谣言数据集,提供全面的评估框架,支持选择性卸载和单模态卸载等高级设置。
- 实验表明,单模态卸载在多模态谣言上失效,卸载效果受灾难性遗忘影响,且模型易受提示攻击。
📝 摘要(中文)
多模态大语言模型(MLLM)的进步加剧了人们对数据隐私的担忧,使得机器卸载(MU),即选择性地移除已学习的信息,成为一项关键需求。然而,现有的MLLM的MU基准测试受到图像多样性不足、潜在的不准确性以及评估场景不足的限制,无法捕捉真实世界应用的复杂性。为了促进MLLM卸载的发展并缓解上述限制,我们引入了OFFSIDE,这是一个新颖的基准,用于评估基于足球转会谣言的MLLM中的错误信息卸载。这个手动策划的数据集包含80名球员的15.68K条记录,提供了一个全面的框架,包含四个测试集,用于评估遗忘效果、泛化性、效用性和鲁棒性。OFFSIDE支持高级设置,如选择性卸载和纠正性重学习,以及至关重要的单模态卸载(仅忘记文本数据)。我们对多个基线的广泛评估揭示了关键发现:(1)单模态方法(擦除基于文本的知识)在多模态谣言上失败;(2)卸载效果主要由灾难性遗忘驱动;(3)所有方法都在“视觉谣言”(谣言出现在图像中)上挣扎;(4)被卸载的谣言很容易恢复;(5)所有方法都容易受到提示攻击。这些结果暴露了当前方法中的重大漏洞,突出了对更强大的多模态卸载解决方案的需求。代码可在https://github.com/zh121800/OFFSIDE 获得。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)中错误信息卸载的问题。现有的机器卸载(MU)基准测试在MLLM领域存在不足,具体表现为:图像多样性不足,无法覆盖真实世界场景;数据集可能存在不准确性,影响评估结果的可靠性;评估场景不够全面,难以充分测试模型的卸载能力。这些问题导致现有方法难以有效评估和提升MLLM的错误信息卸载能力。
核心思路:论文的核心思路是构建一个更全面、更具挑战性的MLLM错误信息卸载基准测试,即OFFSIDE。该基准基于足球转会谣言,利用多模态信息(文本和图像)的复杂性,更真实地模拟现实世界中的错误信息传播场景。通过精心设计的数据集和评估指标,OFFSIDE旨在推动MLLM卸载技术的发展,并揭示现有方法的局限性。
技术框架:OFFSIDE基准测试主要包含以下几个关键组成部分:1) 数据集构建:手动策划包含15.68K条记录的足球转会谣言数据集,涵盖80名球员,包含文本描述和相关图像。2) 评估场景设计:设计四个测试集,分别评估遗忘效果、泛化性、效用性和鲁棒性。3) 高级设置支持:支持选择性卸载、纠正性重学习以及单模态卸载(仅卸载文本数据)。4) 基线方法评估:对多种基线方法进行广泛评估,分析其在不同测试集上的表现。
关键创新:OFFSIDE基准测试的关键创新在于其数据集的构建和评估场景的设计。与现有基准相比,OFFSIDE的数据集更具多样性和真实性,能够更好地模拟现实世界中的错误信息传播场景。此外,OFFSIDE还支持多种高级设置,如选择性卸载和单模态卸载,为研究人员提供了更灵活的实验平台。
关键设计:OFFSIDE的关键设计包括:1) 数据集的多样性:数据集包含不同类型的足球转会谣言,涵盖不同的球员和俱乐部,以及不同的图像风格和内容。2) 评估指标的全面性:评估指标不仅关注遗忘效果,还关注泛化性、效用性和鲁棒性,从而更全面地评估模型的卸载能力。3) 评估场景的挑战性:评估场景设计考虑了多种因素,如视觉谣言、提示攻击等,旨在挑战现有方法的局限性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的单模态卸载方法在多模态谣言上表现不佳,卸载效果主要受灾难性遗忘影响,且模型容易受到提示攻击。所有方法在处理“视觉谣言”时都面临挑战,并且被卸载的谣言很容易被恢复。这些发现揭示了当前多模态卸载方法的局限性,为未来的研究方向提供了重要启示。
🎯 应用场景
该研究成果可应用于社交媒体平台、新闻媒体等领域,帮助过滤和移除错误信息,提升信息的可信度。通过提升多模态大语言模型的卸载能力,可以有效应对虚假新闻、谣言等问题,维护网络信息安全,并为用户提供更可靠的信息服务。未来的研究可以进一步探索更高效、更鲁棒的卸载方法,并将其应用于更广泛的领域。
📄 摘要(原文)
Advances in Multimodal Large Language Models (MLLMs) intensify concerns about data privacy, making Machine Unlearning (MU), the selective removal of learned information, a critical necessity. However, existing MU benchmarks for MLLMs are limited by a lack of image diversity, potential inaccuracies, and insufficient evaluation scenarios, which fail to capture the complexity of real-world applications. To facilitate the development of MLLMs unlearning and alleviate the aforementioned limitations, we introduce OFFSIDE, a novel benchmark for evaluating misinformation unlearning in MLLMs based on football transfer rumors. This manually curated dataset contains 15.68K records for 80 players, providing a comprehensive framework with four test sets to assess forgetting efficacy, generalization, utility, and robustness. OFFSIDE supports advanced settings like selective unlearning and corrective relearning, and crucially, unimodal unlearning (forgetting only text data). Our extensive evaluation of multiple baselines reveals key findings: (1) Unimodal methods (erasing text-based knowledge) fail on multimodal rumors; (2) Unlearning efficacy is largely driven by catastrophic forgetting; (3) All methods struggle with "visual rumors" (rumors appear in the image); (4) The unlearned rumors can be easily recovered and (5) All methods are vulnerable to prompt attacks. These results expose significant vulnerabilities in current approaches, highlighting the need for more robust multimodal unlearning solutions. The code is available at https://github.com/zh121800/OFFSIDE