$\oslash$ Source Models Leak What They Shouldn't $\nrightarrow$: Unlearning Zero-Shot Transfer in Domain Adaptation Through Adversarial Optimization

📄 arXiv: 2604.08238v1 📥 PDF

作者: Arnav Devalapally, Poornima Jain, Kartik Srinivas, Vineeth N. Balasubramanian

分类: cs.CV

发布日期: 2026-04-09

备注: CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出SCADA-UL,通过对抗优化解决源域信息在免源域自适应中的泄露问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 免源域自适应 机器遗忘 对抗学习 隐私保护 领域自适应

📋 核心要点

  1. 现有免源域自适应方法存在源域信息泄露风险,尤其是在源域独有类别上表现出意外的零样本性能。
  2. 提出SCADA-UL框架,通过对抗生成遗忘类别样本,并结合重缩放标签策略和对抗优化实现知识遗忘。
  3. 实验结果表明,该方法在遗忘源域独有类别方面优于现有基线,并在基准数据集上达到重训练级别的遗忘性能。

📝 摘要(中文)

视觉模型在跨领域自适应(如卫星图像和医学扫描)中的应用日益广泛,但也带来了一种新的隐私风险:模型可能会无意中保留并将敏感的源域特定信息泄露到目标域中。这为机器遗忘提供了一个引人注目的用例,以保护敏感的源域数据。在自适应技术中,免源域自适应(SFDA)尤其需要机器遗忘(MU),因为源数据本身受到保护,但自适应期间暴露的源模型编码了其影响。实验表明,现有的SFDA方法在目标域中对源域独有类别表现出很强的零样本性能,表明它们无意中将这些类别的知识泄露到目标域中,即使这些类别没有在目标数据中表示。我们识别并解决了这一风险,提出了一种名为SCADA-UL的MU设置:在域自适应中遗忘源域独有类别。现有的MU方法无法解决此设置,因为它们并非旨在处理数据分布偏移。我们提出了一种新的遗忘方法,其中对抗生成的遗忘类别样本在域自适应过程中通过一种新颖的重缩放标签策略和对抗优化被模型遗忘。我们还将研究扩展到两个变体:此问题设置的持续版本以及要遗忘的特定源类可能未知的情况。除了理论解释外,我们全面的实验结果表明,我们的方法在所提出的设置中始终优于基线,同时在基准数据集上实现了重训练级别的遗忘性能。代码可在https://github.com/D-Arnav/SCADA获得。

🔬 方法详解

问题定义:论文旨在解决免源域自适应(SFDA)中,源域模型在适应目标域时,无意中泄露源域独有类别信息的隐私问题。现有SFDA方法虽然不直接访问源域数据,但模型本身仍然编码了源域知识,导致在目标域上对源域独有类别表现出较强的零样本性能,这构成了隐私泄露的风险。

核心思路:论文的核心思路是通过对抗学习,使模型在适应目标域的同时,主动“遗忘”源域独有类别的信息。具体而言,通过生成对抗样本来模拟“遗忘类别”,并利用这些样本来训练模型,使其对这些类别的信息不敏感,从而降低隐私泄露的风险。

技术框架:SCADA-UL框架主要包含以下几个阶段:1) 对抗样本生成:生成类似于源域独有类别的对抗样本,作为“遗忘类别”的代表。2) 重缩放标签策略:对目标域数据和对抗样本进行标签重缩放,以平衡不同类别的影响。3) 对抗优化:利用对抗样本和重缩放后的标签,通过对抗学习的方式训练模型,使其在适应目标域的同时,遗忘源域独有类别的信息。

关键创新:论文的关键创新在于提出了SCADA-UL框架,并结合对抗样本生成、重缩放标签策略和对抗优化,实现了在免源域自适应场景下的知识遗忘。与现有机器遗忘方法不同,SCADA-UL专门针对数据分布偏移问题进行了优化,能够有效应对域自适应场景下的挑战。

关键设计:在对抗样本生成方面,论文可能采用了生成对抗网络(GAN)或其他对抗样本生成技术。在重缩放标签策略方面,论文提出了一种新颖的标签调整方法,以平衡目标域数据和对抗样本的影响,避免模型过度拟合对抗样本。在对抗优化方面,论文可能采用了特定的损失函数,例如梯度惩罚或一致性正则化,以提高模型的泛化能力和遗忘效果。

📊 实验亮点

实验结果表明,SCADA-UL方法在遗忘源域独有类别方面显著优于现有基线方法,并在基准数据集上实现了接近重训练级别的遗忘性能。具体而言,该方法在降低源域独有类别的零样本性能方面取得了显著进展,同时保持了模型在目标域上的泛化能力。论文还验证了该方法在持续学习和未知遗忘类别场景下的有效性。

🎯 应用场景

该研究成果可应用于各种涉及跨领域视觉模型自适应的场景,例如医学图像分析、遥感图像处理等。通过保护源域数据的隐私,可以促进不同机构之间的数据共享和模型协作,加速相关领域的发展。此外,该方法还可以用于防御针对模型的隐私攻击,提高模型的安全性。

📄 摘要(原文)

The increasing adaptation of vision models across domains, such as satellite imagery and medical scans, has raised an emerging privacy risk: models may inadvertently retain and leak sensitive source-domain specific information in the target domain. This creates a compelling use case for machine unlearning to protect the privacy of sensitive source-domain data. Among adaptation techniques, source-free domain adaptation (SFDA) calls for an urgent need for machine unlearning (MU), where the source data itself is protected, yet the source model exposed during adaptation encodes its influence. Our experiments reveal that existing SFDA methods exhibit strong zero-shot performance on source-exclusive classes in the target domain, indicating they inadvertently leak knowledge of these classes into the target domain, even when they are not represented in the target data. We identify and address this risk by proposing an MU setting called SCADA-UL: Unlearning Source-exclusive ClAsses in Domain Adaptation. Existing MU methods do not address this setting as they are not designed to handle data distribution shifts. We propose a new unlearning method, where an adversarially generated forget class sample is unlearned by the model during the domain adaptation process using a novel rescaled labeling strategy and adversarial optimization. We also extend our study to two variants: a continual version of this problem setting and to one where the specific source classes to be forgotten may be unknown. Alongside theoretical interpretations, our comprehensive empirical results show that our method consistently outperforms baselines in the proposed setting while achieving retraining-level unlearning performance on benchmark datasets. Our code is available at https://github.com/D-Arnav/SCADA