UniErase: Towards Balanced and Precise Unlearning in Language Models

📄 arXiv: 2505.15674v2 📥 PDF

作者: Miao Yu, Liang Lin, Guibin Zhang, Xinfeng Li, Junfeng Fang, Xingrui Yu, Ivor Tsang, Ningyu Zhang, Kun Wang, Yang Wang

分类: cs.CL, cs.AI

发布日期: 2025-05-21 (更新: 2025-09-26)


💡 一句话要点

UniErase:提出一种平衡且精确的语言模型卸载框架,提升卸载效果和能力保持。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型卸载 知识编辑 遗忘学习 模型能力保持 Unlearning Token

📋 核心要点

  1. 现有LLM卸载方法依赖微调,难以兼顾卸载精确性与通用能力保持,尤其是在大规模和顺序卸载场景下。
  2. UniErase通过引入Unlearning Token引导模型进入遗忘空间,并利用轻量级Unlearning Edit将卸载目标与该Token关联。
  3. 实验表明,UniErase在TOFU基准测试上,以较少参数修改量显著提升卸载效果和模型能力保持,优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)需要迭代更新以解决过时信息问题,其中LLM卸载提供了一种选择性移除方法。然而,主流卸载方法主要依赖于微调技术,这些技术通常缺乏目标卸载的精确性,并且难以在大规模和顺序设置下平衡卸载效果与通用能力。为了弥合这一差距,本文介绍了一种新颖的卸载框架UniErase,该框架展示了知识卸载的精确性和能力保持之间的平衡性能。我们首先提出了卸载Token,该Token经过优化以引导LLM进入遗忘空间。为了实现具体的卸载行为,我们进一步引入了轻量级的卸载编辑,以有效地将卸载目标与此元Token相关联。UniErase通过编辑作为一种新的卸载范例,在虚构和真实世界知识场景下的批量、顺序和精确卸载任务中实现了出色的性能。在TOFU基准测试中,与8个基线相比,UniErase仅修改了约3.66%的LLM参数,在模型能力方面,其性能优于先前最佳遗忘基线约4.01倍,同时具有更高的卸载效果。同样,UniErase在具有更好能力保持的同时,在卸载效果方面也超过了先前最佳保持方法35.96%,在当前的卸载社区中表现出平衡且双重顶级的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)知识卸载问题,即如何精确、高效地从LLM中移除特定知识,同时尽可能保留模型的通用能力。现有基于微调的卸载方法存在两个主要痛点:一是卸载精度不足,容易误删或残留信息;二是卸载后模型能力下降明显,难以在卸载效果和能力保持之间取得平衡,尤其是在大规模和顺序卸载场景下,问题更加突出。

核心思路:UniErase的核心思路是通过引入一个可学习的“Unlearning Token”来引导模型进入一个特定的“遗忘空间”。这个Token的作用是作为一个全局性的“开关”,当它被激活时,模型会倾向于遗忘与卸载目标相关的信息。同时,为了实现更精确的卸载,论文还提出了“Unlearning Edit”机制,将卸载目标与Unlearning Token关联起来,从而实现对特定知识的精准移除。这种方法避免了直接修改模型参数,降低了对模型整体能力的干扰。

技术框架:UniErase框架主要包含两个核心模块:Unlearning Token和Unlearning Edit。首先,Unlearning Token是一个可学习的向量,通过优化使其能够引导LLM进入遗忘空间。然后,Unlearning Edit模块负责将卸载目标与Unlearning Token关联起来。具体来说,对于每个需要卸载的知识点,Unlearning Edit会生成一个与该知识点相关的编辑向量,该向量与Unlearning Token结合,共同作用于LLM,从而实现对该知识点的精准卸载。整个过程可以看作是对LLM进行了一种轻量级的知识编辑。

关键创新:UniErase最重要的技术创新在于引入了Unlearning Token这一概念,并将其与Unlearning Edit机制相结合。与传统的微调方法相比,UniErase避免了直接修改模型参数,而是通过引导模型进入遗忘空间来实现卸载,从而降低了对模型整体能力的干扰。此外,Unlearning Edit机制实现了对特定知识的精准卸载,提高了卸载的精度。这种基于编辑的卸载范式是UniErase与现有方法的本质区别。

关键设计:Unlearning Token的初始化方式和优化目标是关键设计之一。论文采用了一种对抗训练的方式来优化Unlearning Token,使其能够最大程度地降低模型对卸载目标的预测概率,同时尽可能地保留模型对其他知识的预测能力。Unlearning Edit的设计也至关重要,论文采用了一种轻量级的神经网络来生成编辑向量,该网络以卸载目标作为输入,输出一个与Unlearning Token维度相同的向量,该向量与Unlearning Token结合,共同作用于LLM。损失函数的设计也需要仔细考虑,需要在卸载效果和能力保持之间取得平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniErase在TOFU基准测试中表现出色,仅修改约3.66%的LLM参数,在模型能力方面,其性能优于先前最佳遗忘基线约4.01倍,同时具有更高的卸载效果。在具有更好能力保持的同时,在卸载效果方面也超过了先前最佳保持方法35.96%。实验结果表明,UniErase在卸载效果和能力保持方面均优于现有方法,实现了平衡且双重顶级的性能。

🎯 应用场景

UniErase在多个领域具有广泛的应用前景,包括:处理LLM中的错误信息、移除有害或偏见内容、应对数据隐私法规要求(如GDPR的“被遗忘权”),以及在模型持续学习过程中选择性地遗忘过时知识。该研究有助于提升LLM的可控性和安全性,促进其在更广泛场景下的应用。

📄 摘要(原文)

Large language models (LLMs) require iterative updates to address the outdated information problem, where LLM unlearning offers an approach for selective removal. However, mainstream unlearning methods primarily rely on fine-tuning techniques, which often lack precision in targeted unlearning and struggle to balance unlearning efficacy with general ability under massive and sequential settings. To bridge this gap, in this work, we introduce UniErase, a novel unlearning framework that demonstrates precision and balanced performances between knowledge unlearning and ability retaining. We first propose the Unlearning Token, which is optimized to steer LLMs toward a forgetting space. To achieve concrete unlearning behaviors, we further introduce the lightweight Unlearning Edit to efficiently associate the unlearning targets with this meta-token. Serving as a new unlearning paradigm via editing, UniErase achieves outstanding performances across batch, sequential, and precise unlearning tasks under fictitious and real-world knowledge scenarios. On the TOFU benchmark, compared with 8 baselines, UniErase, modifying only $\sim$ \textbf{3.66%} of the LLM parameters, outperforms the previous best-forgetting baseline by \textbf{$\sim$ 4.01$\times$} for \textbf{model ability} with even higher unlearning efficacy. Similarly, UniErase, with better ability retention, also surpasses the previous best-retaining method by \textbf{35.96%} for \textbf{unlearning efficacy}, showing balanced and dual top-tier performances in the current unlearning community.