Understanding the Dilemma of Unlearning for Large Language Models
作者: Qingjie Zhang, Haoting Qian, Zhicong Huang, Cheng Hong, Minlie Huang, Ke Xu, Chao Zhang, Han Qiu
分类: cs.CL, cs.AI
发布日期: 2025-09-29
💡 一句话要点
提出unPact框架,揭示大语言模型不可靠的知识遗忘现象与灾难性遗忘困境
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识遗忘 大语言模型 可解释性 提示归因 灾难性遗忘
📋 核心要点
- 现有大语言模型知识遗忘方法缺乏可解释性,难以理解其内部机制和效果。
- 论文提出unPact框架,通过提示归因和贡献追踪,量化提示token对模型输出的影响,从而分析知识遗忘过程。
- 实验表明,现有方法要么遗忘不彻底,知识易恢复,要么过度破坏模型通用能力,存在知识遗忘困境。
📝 摘要(中文)
知识遗忘旨在从大型语言模型(LLM)中移除特定知识,但其有效性仍存在争议。一方面,“遗忘”的知识通常可以通过轻量级微调等干预手段恢复;另一方面,知识遗忘可能导致灾难性遗忘,从而降低模型的通用能力。尽管知识遗忘方法的研究活跃,但由于难以追踪LLM复杂架构中的知识,对其机制的可解释性分析仍然匮乏。我们提出了unPact,一个通过提示归因和贡献追踪实现可解释知识遗忘的框架,以弥补这一空白。该框架量化每个提示token对输出的影响,从而实现遗忘前后的比较,揭示发生了哪些变化。在六种主流知识遗忘方法、三个LLM和三个基准测试中,我们发现:(1)知识遗忘通过扰乱对提示中关键词的关注而起作用;(2)大部分知识并未真正擦除,可以通过简单地强调提示中的这些关键词来恢复,而无需修改模型权重;(3)灾难性遗忘源于对所有token的不加区分的惩罚。总而言之,我们的结果表明知识遗忘存在一个困境:现有方法要么不足——知识仍然可以通过关键词强调来恢复,要么过度破坏——由于灾难性遗忘导致通用性能崩溃,因此在可靠的知识遗忘方面仍然存在差距。
🔬 方法详解
问题定义:现有大语言模型的知识遗忘方法存在两个主要问题。一是遗忘效果不佳,被删除的知识仍然可以通过一些技巧(如关键词强调)恢复。二是容易导致灾难性遗忘,即在删除特定知识的同时,损害了模型的通用能力。现有方法缺乏对遗忘过程的深入理解,难以平衡遗忘效果和模型性能。
核心思路:论文的核心思路是通过可解释性分析来理解知识遗忘的过程。具体来说,通过量化每个prompt token对模型输出的影响,来追踪知识在模型中的变化。如果一个token对某个特定知识的生成有重要贡献,那么在知识遗忘后,这个token的影响应该显著降低。通过分析token影响的变化,可以判断遗忘是否有效,以及是否对其他知识产生了副作用。
技术框架:unPact框架主要包含以下几个步骤:1) Prompt Attribution:计算每个prompt token对模型输出的贡献度。论文采用了一种基于梯度的方法来实现prompt attribution。2) Contribution Tracking:比较知识遗忘前后,每个prompt token贡献度的变化。通过分析贡献度变化,可以判断哪些token受到了影响,以及影响的程度。3) Performance Evaluation:评估知识遗忘对模型性能的影响,包括目标知识的遗忘程度和通用能力的下降程度。
关键创新:unPact框架的关键创新在于其可解释性。通过prompt attribution和contribution tracking,可以深入了解知识遗忘的内部机制,从而更好地设计和评估知识遗忘方法。与以往的黑盒方法相比,unPact提供了一种更透明、更可控的知识遗忘方案。
关键设计:在prompt attribution方面,论文采用了一种基于梯度的attribution方法。具体来说,计算模型输出对每个prompt token embedding的梯度,然后将梯度作为该token的贡献度。为了提高attribution的准确性,论文还采用了一些技巧,例如smoothgrad。在contribution tracking方面,论文比较了知识遗忘前后,每个token贡献度的变化。论文使用了一些统计指标来量化贡献度变化,例如平均变化幅度、变化方向等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的知识遗忘方法要么遗忘不彻底,知识容易通过关键词强调恢复,要么过度破坏模型通用能力,导致灾难性遗忘。例如,某些方法在遗忘特定知识后,模型的问答准确率下降了10%以上。unPact框架能够有效揭示这些问题,为改进知识遗忘方法提供了指导。
🎯 应用场景
该研究成果可应用于需要保护用户隐私或删除不当信息的大语言模型。例如,在用户要求删除个人信息后,可以使用知识遗忘技术从模型中移除相关知识,防止模型泄露用户隐私。此外,该研究也有助于提高大语言模型的安全性和可靠性,防止模型生成有害或不准确的信息。
📄 摘要(原文)
Unlearning seeks to remove specific knowledge from large language models (LLMs), but its effectiveness remains contested. On one side, "forgotten" knowledge can often be recovered through interventions such as light fine-tuning; on the other side, unlearning may induce catastrophic forgetting that degrades general capabilities. Despite active exploration of unlearning methods, interpretability analyses of the mechanism are scarce due to the difficulty of tracing knowledge in LLMs' complex architectures. We address this gap by proposing unPact, an interpretable framework for unlearning via prompt attribution and contribution tracking. Typically, it quantifies each prompt token's influence on outputs, enabling pre- and post-unlearning comparisons to reveal what changes. Across six mainstream unlearning methods, three LLMs, and three benchmarks, we find that: (1) Unlearning appears to be effective by disrupting focus on keywords in prompt; (2) Much of the knowledge is not truly erased and can be recovered by simply emphasizing these keywords in prompts, without modifying the model's weights; (3) Catastrophic forgetting arises from indiscriminate penalization of all tokens. Taken together, our results suggest an unlearning dilemma: existing methods tend either to be insufficient - knowledge remains recoverable by keyword emphasis, or overly destructive - general performance collapses due to catastrophic forgetting, still leaving a gap to reliable unlearning.