MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning
作者: Jiali Cheng, Hadi Amiri
分类: cs.LG, cs.AI
发布日期: 2024-06-21 (更新: 2024-12-22)
备注: SafeGenAI @ NeurIPS 2024. Project page: https://clu-uml.github.io/MU-Bench-Project-Page/
💡 一句话要点
MU-Bench:一个用于机器遗忘的多任务多模态综合基准测试平台
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器遗忘 基准测试 多模态学习 数据隐私 模型更新 可扩展性 参数高效微调
📋 核心要点
- 现有的机器遗忘方法评估不一致,缺乏统一的基准,难以进行公平比较,限制了该领域的发展。
- MU-Bench通过统一删除样本集和训练模型,并覆盖多种任务和数据模态,构建了一个全面的基准测试平台。
- 实验表明,RandLabel和SalUn在MU-Bench上表现出色,同时分析了遗忘的可扩展性、微调影响和数据集偏差等问题。
📝 摘要(中文)
本文提出了MU-Bench,一个全面的机器遗忘(MU)基准测试平台,旨在解决当前MU方法评估中存在的不一致性问题,例如使用不同的训练模型、架构和样本移除策略,这阻碍了准确的比较。MU-Bench统一了删除样本集和训练模型,并广泛覆盖了任务和数据模态,包括语音和视频分类等先前未探索的领域。评估结果表明,RandLabel和SalUn是MU-Bench上最有效的通用MU方法,而BadT和SCRUB能够在删除集上实现随机性能。此外,本文还分析了遗忘的一些未被充分研究的方面,包括可扩展性、参数高效微调和课程学习的影响,以及对数据集偏差的敏感性。MU-Bench提供了一个易于使用的软件包,包括数据集分割、模型和实现,以及一个排行榜,以促进统一和可扩展的MU研究。
🔬 方法详解
问题定义:现有的机器遗忘方法评估体系存在严重缺陷,缺乏统一的标准和数据集。不同的研究使用不同的模型架构、训练数据和删除策略,导致难以对各种遗忘算法进行公平、客观的比较。此外,现有研究主要集中在单一任务或模态上,缺乏对复杂场景的覆盖,限制了研究的泛化能力。
核心思路:MU-Bench的核心思路是构建一个统一、全面、易于使用的机器遗忘基准测试平台,从而促进该领域的研究和发展。通过提供标准化的数据集、模型和评估指标,MU-Bench使得研究者可以更加方便地比较不同遗忘算法的性能,并发现其优缺点。同时,MU-Bench还涵盖了多种任务和模态,能够更全面地评估遗忘算法的泛化能力。
技术框架:MU-Bench主要包含以下几个组成部分:1) 标准化的数据集分割,涵盖图像、文本、语音和视频等多种模态;2) 预训练的模型,包括各种常见的深度学习架构;3) 统一的评估指标,用于衡量遗忘算法的性能;4) 易于使用的代码库,方便研究者进行实验和比较。此外,MU-Bench还提供了一个排行榜,用于展示不同遗忘算法的性能,并促进研究者之间的交流和合作。
关键创新:MU-Bench的主要创新在于其全面性和易用性。与现有的机器遗忘评估方法相比,MU-Bench覆盖了更多的数据模态和任务类型,能够更全面地评估遗忘算法的性能。同时,MU-Bench提供了一个易于使用的代码库和标准化的评估流程,使得研究者可以更加方便地进行实验和比较。
关键设计:MU-Bench的关键设计包括:1) 数据集的选择和分割,确保数据集具有代表性和多样性;2) 模型的选择和预训练,选择常见的深度学习架构,并进行充分的预训练;3) 评估指标的设计,选择能够有效衡量遗忘算法性能的指标,例如遗忘率、准确率和效率;4) 代码库的开发,提供易于使用的API和示例代码,方便研究者进行实验。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RandLabel和SalUn是MU-Bench上表现最好的通用机器遗忘方法。BadT和SCRUB能够在删除集上实现接近随机的性能,表明它们具有一定的遗忘能力。此外,研究还分析了参数高效微调和课程学习对遗忘性能的影响,以及模型对数据集偏差的敏感性,为未来的研究提供了重要的参考。
🎯 应用场景
MU-Bench的研究成果可应用于各种需要数据删除的场景,例如保护用户隐私、合规性要求以及模型更新。在实际应用中,可以利用MU-Bench评估不同遗忘算法的性能,选择最适合特定场景的算法,从而确保数据删除的有效性和效率。此外,MU-Bench还可以促进机器遗忘领域的研究和发展,推动相关技术的进步。
📄 摘要(原文)
Recent advancements in Machine Unlearning (MU) have introduced solutions to selectively remove certain training samples, such as those with outdated or sensitive information, from trained models. Despite these advancements, evaluation of MU methods have been inconsistent, employing different trained models and architectures, and sample removal strategies, which hampers accurate comparison. In addition, prior MU approaches have mainly focused on singular tasks or modalities, which is not comprehensive. To address these limitations, we develop MU-Bench, the first comprehensive benchmark for MU that (i) unifies the sets of deleted samples and trained models, and (ii) provides broad coverage of tasks and data modalities, including previously unexplored domains such as speech and video classification. Our evaluation show that RandLabel and SalUn are the most effective general MU approaches on MU-Bench, and BadT and SCRUB are capable of achieving random performance on the deletion set. We analyze several under-investigated aspects of unlearning, including scalability, the impacts of parameter-efficient fine-tuning and curriculum learning, and susceptibility to dataset biases. MU-Bench provides an easy-to-use package that includes dataset splits, models, and implementations, together with a leader board to enable unified and scalable MU research.