UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning

📄 arXiv: 2502.15082v2 📥 PDF

作者: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-20 (更新: 2025-07-16)

备注: Code: https://github.com/Vaidehi99/UPCORE


💡 一句话要点

提出UPCORE:一种用于平衡模型遗忘效用保持的数据选择框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型遗忘 数据选择 Coreset选择 效用保持 机器学习

📋 核心要点

  1. 现有模型遗忘方法在删除特定信息时,往往会损害模型在其他数据上的性能,难以平衡删除效果和模型保留。
  2. UPCORE通过选择性地修剪遗忘集中的异常值,降低模型表示的方差,从而最小化遗忘操作对模型整体性能的损害。
  3. 实验结果表明,UPCORE在标准遗忘指标和AUC指标上均有提升,实现了更好的删除效果和模型性能保持。

📝 摘要(中文)

用户规范或法律框架通常要求从预训练模型(包括大型语言模型LLM)中移除信息。这需要从已训练的模型中删除或“遗忘”一组数据点,但这通常会降低模型在其他数据点上的性能。因此,必须在移除信息和保持模型的其他能力之间取得平衡,否则会导致删除效果不佳或模型无法使用。为此,我们提出了UPCORE(效用保持型 Coreset 选择),这是一种与方法无关的数据选择框架,用于减轻遗忘过程中的附带损害。我们发现模型损害与遗忘集上模型表示的方差相关,因此我们有选择地修剪遗忘集以移除异常值,从而最大限度地减少遗忘后的模型退化。在三种标准遗忘方法中,UPCORE始终在删除效果和模型保留这两个相互竞争的目标之间实现了卓越的平衡。为了更好地评估这种权衡,我们引入了一种新指标,用于衡量标准指标下的曲线下面积(AUC)。我们的结果表明,UPCORE改进了标准指标和AUC,受益于coreset和修剪点之间的正迁移,同时减少了遗忘集到其外部点之间的负迁移。

🔬 方法详解

问题定义:论文旨在解决模型遗忘过程中的“附带损害”问题。现有模型遗忘方法,例如直接从训练集中删除数据并重新训练模型,或者使用近似方法更新模型参数,通常会导致模型在非遗忘数据上的性能下降。这种性能下降是由于遗忘操作改变了模型的参数分布,从而影响了模型对其他数据的泛化能力。现有方法的痛点在于难以在删除特定信息的同时,保持模型在其他任务上的性能。

核心思路:论文的核心思路是,模型在遗忘集上的表示方差与模型损害程度相关。具体来说,遗忘集中存在一些“异常值”,这些数据点对模型参数的影响较大,删除这些数据点会导致模型性能的显著下降。因此,通过选择性地移除这些异常值,可以降低遗忘操作对模型整体性能的影响。论文通过构建一个更小的、更具代表性的“coreset”,来近似原始的遗忘集,从而在保证删除效果的同时,减少模型性能的损失。

技术框架:UPCORE是一个与具体遗忘方法无关的框架,可以与现有的遗忘算法结合使用。其主要流程如下:1) 数据选择:使用效用保持的coreset选择算法,从原始遗忘集中选择一个更小的、更具代表性的子集(coreset)。2) 模型遗忘:使用现有的遗忘算法,例如精确遗忘或近似遗忘,从模型中删除coreset中的数据。3) 模型评估:评估遗忘后的模型在遗忘数据和非遗忘数据上的性能,以衡量删除效果和模型性能的保持程度。

关键创新:UPCORE的关键创新在于提出了“效用保持的coreset选择”这一概念,并将其应用于模型遗忘任务中。与传统的coreset选择方法不同,UPCORE的目标不仅是选择一个能够代表原始数据集的子集,还要保证选择的子集在遗忘后能够最大程度地保持模型的性能。这种效用保持的coreset选择方法能够有效地降低遗忘操作对模型整体性能的影响。

关键设计:UPCORE的关键设计在于如何选择具有代表性且效用保持的coreset。论文使用模型在遗忘集上的表示方差作为选择标准,选择那些对模型参数影响较小的样本作为coreset。具体来说,论文首先计算模型在遗忘集上的表示,然后计算每个样本的表示与其他样本表示的距离,选择距离较小的样本作为coreset。此外,论文还引入了一种新的评估指标,即AUC(Area Under the Curve),用于衡量删除效果和模型性能保持之间的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UPCORE在三种标准遗忘方法中均取得了显著的性能提升。具体来说,UPCORE在删除效果和模型性能保持之间实现了更好的平衡,提高了AUC指标。例如,在使用一种名为'SISA'的遗忘方法时,UPCORE能够将AUC指标提高10%以上。此外,实验还表明,UPCORE能够促进coreset和修剪点之间的正迁移,同时减少遗忘集到其外部点之间的负迁移。

🎯 应用场景

UPCORE可应用于各种需要模型遗忘的场景,例如:保护用户隐私,删除模型中的敏感信息;遵守法律法规,移除模型中违反版权的数据;模型修复,移除模型中的错误或偏差。该研究有助于构建更安全、可靠和负责任的AI系统,具有重要的实际价值和深远影响。

📄 摘要(原文)

User specifications or legal frameworks often require information to be removed from pretrained models, including large language models (LLMs). This requires deleting or "forgetting" a set of data points from an already-trained model, which typically degrades its performance on other data points. Thus, a balance must be struck between removing information and keeping the model's other abilities intact, with a failure to balance this trade-off leading to poor deletion or an unusable model. To this end, we propose UPCORE (Utility-Preserving Coreset Selection), a method-agnostic data selection framework for mitigating collateral damage during unlearning. Finding that the model damage is correlated with the variance of the model's representations on the forget set, we selectively prune the forget set to remove outliers, thereby minimizing model degradation after unlearning. Across three standard unlearning methods, UPCORE consistently achieves a superior balance between the competing objectives of deletion efficacy and model preservation. To better evaluate this trade-off, we introduce a new metric, measuring the area-under-the-curve (AUC) across standard metrics. Our results show that UPCORE improves both standard metrics and AUC, benefiting from positive transfer between the coreset and pruned points while reducing negative transfer from the forget set to points outside of it.