ICU-Bench:Benchmarking Continual Unlearning in Multimodal Large Language Models

作者: Yuhang Wang, Wenjie Mei, Junkai Zhang, Guangyu He, Zhenxing Niu, Haichang Gao

分类: cs.AI

发布日期: 2026-05-07

备注: 30 pages, 12 figures

💡 一句话要点

提出ICU-Bench基准以评估多模态大模型在持续学习场景下的隐私遗忘能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 机器遗忘 持续学习 隐私保护 基准测试 模型可信度

📋 核心要点

现有遗忘基准多局限于静态或短序列场景，无法模拟现实中持续、动态的隐私删除需求，导致模型在长序列任务中表现受限。
提出ICU-Bench基准，构建包含医疗与合同文档的隐私敏感数据集，并设计了一套涵盖遗忘效果、效用保持与稳定性的综合评估指标体系。
实验表明现有遗忘方法在持续多模态场景下难以平衡遗忘质量与模型效用，验证了该基准在推动持续遗忘算法研究方面的关键价值。

📝 摘要（中文）

尽管多模态大模型（MLLMs）在多个领域取得了显著进展，但其在海量多模态数据集上的训练引发了严重的隐私担忧，使得机器遗忘技术变得日益必要。然而，现有基准主要集中在静态或短序列设置，难以支持评估现实部署中持续的隐私删除请求。为填补这一空白，我们引入了ICU-Bench，这是一个基于隐私敏感文档数据的持续多模态遗忘基准。ICU-Bench包含来自医疗报告和劳动合同两个领域的1,000个隐私敏感档案，涵盖9,500张图像、16,000个问答对及100个遗忘任务。此外，我们引入了新的持续遗忘指标，以全面分析遗忘有效性、历史遗忘保持、保留效用及持续遗忘过程中的稳定性。通过对代表性遗忘方法的广泛实验，我们发现现有方法在持续设置中表现不佳，在平衡遗忘质量、效用保持和长序列可扩展性方面存在明显局限，凸显了开发专门针对持续隐私删除的多模态遗忘方法的必要性。

🔬 方法详解

问题定义：论文旨在解决多模态大模型（MLLMs）在持续学习过程中，如何高效、安全地执行多次隐私数据删除请求，同时避免模型性能退化（灾难性遗忘）的问题。

核心思路：通过构建一个大规模、高难度的持续遗忘基准（ICU-Bench），模拟真实世界中随时间推移不断产生的隐私删除需求，从而量化评估现有遗忘算法在多模态环境下的鲁棒性与有效性。

技术框架：ICU-Bench包含两个核心模块：一是包含医疗报告和劳动合同的隐私敏感数据集，支持多模态（图文）遗忘任务；二是包含遗忘有效性、历史遗忘保持、保留效用及稳定性四个维度的综合评估指标体系，用于全方位衡量遗忘过程。

关键创新：首次将“持续遗忘”概念引入多模态大模型领域，通过100个连续遗忘任务的设置，打破了以往仅关注单次遗忘的局限，揭示了模型在长序列遗忘任务中的性能瓶颈。

关键设计：采用了基于隐私敏感档案的构建策略，确保数据具有高度的隐私属性；设计了针对多模态对齐特征的遗忘评估指标，能够精确捕捉模型在遗忘特定隐私信息后，对相关联多模态知识的保留程度与模型整体性能的波动。

🖼️ 关键图片

📊 实验亮点

实验通过对比多种主流遗忘算法，量化了模型在100个连续任务下的性能衰减。结果显示，现有方法在处理长序列遗忘时，往往在“彻底遗忘”与“保持模型效用”之间难以取得平衡，且随着遗忘任务增加，模型稳定性显著下降，为后续研究提供了明确的性能基准与改进方向。

🎯 应用场景

该研究主要应用于医疗健康、法律咨询及金融服务等对隐私合规要求极高的领域。通过ICU-Bench，开发者能够评估并优化MLLMs在处理用户撤回数据请求时的合规性，确保模型在持续更新过程中既能彻底删除隐私信息，又不损害模型的通用推理能力，为构建可信AI系统提供技术支撑。

📄 摘要（原文）

Although Multimodal Large Language Models (MLLMs) have achieved remarkable progress across many domains, their training on large-scale multimodal datasets raises serious privacy concerns, making effective machine unlearning increasingly necessary. However, existing benchmarks mainly focus on static or short-sequence settings, offering limited support for evaluating continual privacy deletion requests in realistic deployments. To bridge this gap, we introduce ICU-Bench, a continual multimodal unlearning benchmark built on privacy-critical document data. ICU-Bench contains 1,000 privacy-sensitive profiles from two document domains, medical reports and labor contracts, with 9,500 images, 16,000 question-answer pairs, and 100 forget tasks. Additionally, new continual unlearning metrics are introduced, facilitating a comprehensive analysis of forgetting effectiveness, historical forgetting preservation, retained utility, and stability throughout the continual unlearning process. Through extensive experiments with representative unlearning methods on ICU-Bench, we show that existing methods generally struggle in continual settings and exhibit clear limitations in balancing forgetting quality, utility preservation, and scalability over long task sequences. These findings highlight the need for multimodal unlearning methods explicitly designed for continual privacy deletion.

ICU-Bench:Benchmarking Continual Unlearning in Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理