CoUn: Empowering Machine Unlearning via Contrastive Learning

📄 arXiv: 2509.16391v2 📥 PDF

作者: Yasser H. Khalil, Mehdi Setayesh, Hongliang Li

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-09-19 (更新: 2025-10-17)


💡 一句话要点

CoUn:通过对比学习增强机器学习的不可学习性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器学习不可学习 对比学习 数据隐私 模型删除 表示学习

📋 核心要点

  1. 现有机器学习不可学习方法在移除特定数据影响方面效果有限,无法有效“遗忘”。
  2. CoUn通过对比学习和监督学习调整数据表示,模拟从头训练模型对遗忘数据的分类行为。
  3. 实验证明CoUn在不可学习性上优于现有方法,且可增强现有基线的不可学习能力。

📝 摘要(中文)

机器学习不可学习性(MU)旨在从已训练模型中移除特定“遗忘”数据的影响,同时保留其对剩余“保留”数据的知识。现有的基于标签操作或模型权重扰动的MU方法通常在不可学习性方面效果有限。为了解决这个问题,我们引入了CoUn,这是一个新颖的MU框架,其灵感来自于一个观察:仅使用保留数据从头开始重新训练的模型会根据遗忘数据与保留数据的语义相似性对其进行分类。CoUn通过对比学习(CL)和监督学习来调整学习到的数据表示来模拟这种行为,这些学习仅应用于保留数据。具体来说,CoUn(1)利用数据样本之间的语义相似性,使用CL间接调整遗忘表示,以及(2)通过监督学习将保留表示保持在其各自的集群中。在各种数据集和模型架构上的大量实验表明,CoUn在不可学习性方面始终优于最先进的MU基线。此外,将我们的CL模块集成到现有基线中可以增强其不可学习性。

🔬 方法详解

问题定义:论文旨在解决机器学习不可学习性(MU)问题,即如何从已训练模型中移除特定“遗忘”数据的影响,同时保留模型对剩余“保留”数据的知识。现有方法,如基于标签操作或模型权重扰动的方法,在实现有效的不可学习性方面存在局限性,无法彻底消除遗忘数据的影响。

核心思路:论文的核心思路是模拟从头开始仅使用保留数据训练模型时的行为。观察表明,这种情况下,模型会根据遗忘数据与保留数据的语义相似性对其进行分类。CoUn通过调整数据表示来模仿这种行为,从而实现不可学习性。

技术框架:CoUn框架主要包含两个模块:对比学习(CL)模块和监督学习模块。这两个模块都只应用于保留数据。CL模块利用数据样本之间的语义相似性,间接调整遗忘数据的表示。监督学习模块则负责将保留数据的表示维持在其各自的类别簇中。整体流程是,首先使用原始数据训练一个初始模型,然后使用CoUn框架对模型进行微调,以实现不可学习性。

关键创新:CoUn的关键创新在于利用对比学习来间接影响遗忘数据的表示。与直接修改遗忘数据或模型权重的方法不同,CoUn通过调整保留数据的表示,使得模型对遗忘数据的分类结果更接近于仅使用保留数据训练的模型的结果。这种间接调整的方式可以更有效地消除遗忘数据的影响,同时保持模型对保留数据的性能。

关键设计:CoUn的关键设计包括对比学习损失函数和监督学习损失函数。对比学习损失函数旨在拉近语义相似的保留数据样本的表示,同时推开语义不相似的样本。监督学习损失函数则使用交叉熵损失,确保保留数据的表示仍然属于其原始类别。此外,论文还探讨了不同的对比学习策略和超参数设置,以优化CoUn的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoUn在多个数据集和模型架构上均优于现有的不可学习性基线方法。具体来说,CoUn在不可学习性指标上取得了显著提升,同时保持了模型在保留数据上的性能。此外,将CoUn的对比学习模块集成到现有基线方法中,也能够有效提升这些方法的不可学习性。

🎯 应用场景

CoUn可应用于各种需要数据删除的场景,例如用户隐私保护、模型公平性以及应对恶意数据攻击。在用户隐私保护方面,当用户要求删除其数据时,可以使用CoUn从模型中移除该用户数据的影响,而无需重新训练整个模型。在模型公平性方面,可以移除导致模型偏见的数据的影响,从而提高模型的公平性。此外,CoUn还可以用于防御对抗性攻击,通过移除攻击数据的影响来提高模型的鲁棒性。

📄 摘要(原文)

Machine unlearning (MU) aims to remove the influence of specific "forget" data from a trained model while preserving its knowledge of the remaining "retain" data. Existing MU methods based on label manipulation or model weight perturbations often achieve limited unlearning effectiveness. To address this, we introduce CoUn, a novel MU framework inspired by the observation that a model retrained from scratch using only retain data classifies forget data based on their semantic similarity to the retain data. CoUn emulates this behavior by adjusting learned data representations through contrastive learning (CL) and supervised learning, applied exclusively to retain data. Specifically, CoUn (1) leverages semantic similarity between data samples to indirectly adjust forget representations using CL, and (2) maintains retain representations within their respective clusters through supervised learning. Extensive experiments across various datasets and model architectures show that CoUn consistently outperforms state-of-the-art MU baselines in unlearning effectiveness. Additionally, integrating our CL module into existing baselines empowers their unlearning effectiveness.