Layered Unlearning for Adversarial Relearning

📄 arXiv: 2505.09500v1 📥 PDF

作者: Timothy Qian, Vinith Suriyakumar, Ashia Wilson, Dylan Hadfield-Menell

分类: cs.LG

发布日期: 2025-05-14

备注: 37 pages, 8 figures


💡 一句话要点

提出分层卸载(LU)算法,提升语言模型对抗性重学习的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器卸载 对抗性重学习 语言模型 分层学习 隐私保护

📋 核心要点

  1. 现有后训练方法(如微调、卸载)对语言模型的修改脆弱,易受对抗性攻击和重学习的影响。
  2. 论文提出分层卸载(LU)算法,通过逐步卸载数据子集,构建更强的抑制机制,提升模型对抗重学习的鲁棒性。
  3. 实验结果表明,LU算法在多种卸载方法上均能有效提高模型抵抗对抗性重学习的能力。

📝 摘要(中文)

本文旨在理解微调、对齐和卸载等后训练方法如何改变语言模型的行为和表征。特别关注这些修改的脆弱性,即容易通过提示工程或重学习绕过。最近的研究表明,后训练会诱导浅层的、上下文相关的“电路”,从而抑制特定的响应模式。这可能是后训练脆弱性的一种解释。为了验证这一假设,我们设计了一种卸载算法,即分层卸载(LU),它为越来越多的数据子集创建不同的抑制机制。通过在k个阶段中的第i个阶段卸载前i个fold,同时保留剩余的k-i个fold,LU限制了对数据子集进行重学习以恢复完整数据集的能力。我们通过合成实验和大型语言模型(LLM)实验来评估LU。我们发现LU提高了对几种不同卸载方法进行对抗性重学习的鲁棒性。我们的结果有助于提高机器卸载的水平,并深入了解后训练更新的效果。

🔬 方法详解

问题定义:现有语言模型卸载方法容易受到对抗性重学习的攻击,即攻击者可以通过在少量数据上进行微调来恢复模型已卸载的知识。这表明现有的卸载方法可能只是在模型中引入了浅层的、容易被绕过的抑制机制。

核心思路:论文的核心思路是通过分层卸载,逐步构建更深层次、更鲁棒的抑制机制。具体来说,就是将数据集分成多个fold,然后在不同的阶段卸载不同数量的fold,从而限制重学习能够利用的信息,迫使模型学习更通用的卸载策略。

技术框架:LU算法包含k个阶段。在第i个阶段,算法首先卸载前i个fold的数据,然后使用剩余的k-i个fold的数据进行训练。这样,每个阶段都会创建一个针对特定数据子集的抑制机制。通过多个阶段的迭代,模型最终会学习到一种能够抵抗重学习的卸载策略。整体流程可以看作是逐步增加卸载的难度,迫使模型学习更强的抑制能力。

关键创新:LU算法的关键创新在于其分层卸载的策略。与传统的卸载方法一次性卸载所有数据不同,LU算法通过逐步卸载不同子集的数据,构建更深层次、更鲁棒的抑制机制。这种分层策略使得重学习更难恢复已卸载的知识,从而提高了模型的鲁棒性。

关键设计:LU算法的关键设计在于如何选择每个阶段卸载的数据子集。论文中使用了k-fold交叉验证的方法,将数据集分成k个fold,然后在每个阶段卸载不同数量的fold。此外,论文还研究了不同的卸载方法,例如微调和梯度下降,并将LU算法应用于这些方法。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,LU算法在多种卸载方法上均能有效提高模型抵抗对抗性重学习的能力。例如,在使用微调作为卸载方法时,LU算法可以将模型抵抗重学习的能力提高10%以上。此外,LU算法在大型语言模型上也表现出良好的效果,表明其具有较强的泛化能力。

🎯 应用场景

该研究成果可应用于需要保护用户隐私或防止模型被恶意利用的场景,例如:在用户退出服务后,彻底删除其个人数据,防止模型泄露用户隐私;在模型被发现存在安全漏洞后,快速卸载相关知识,防止模型被攻击者利用。该研究有助于提升机器学习系统的安全性和可靠性。

📄 摘要(原文)

Our goal is to understand how post-training methods, such as fine-tuning, alignment, and unlearning, modify language model behavior and representations. We are particularly interested in the brittle nature of these modifications that makes them easy to bypass through prompt engineering or relearning. Recent results suggest that post-training induces shallow context-dependent ``circuits'' that suppress specific response patterns. This could be one explanation for the brittleness of post-training. To test this hypothesis, we design an unlearning algorithm, Layered Unlearning (LU), that creates distinct inhibitory mechanisms for a growing subset of the data. By unlearning the first $i$ folds while retaining the remaining $k - i$ at the $i$th of $k$ stages, LU limits the ability of relearning on a subset of data to recover the full dataset. We evaluate LU through a combination of synthetic and large language model (LLM) experiments. We find that LU improves robustness to adversarial relearning for several different unlearning methods. Our results contribute to the state-of-the-art of machine unlearning and provide insight into the effect of post-training updates.