Effective Skill Unlearning through Intervention and Abstention

📄 arXiv: 2503.21730v2 📥 PDF

作者: Yongce Li, Chung-En Sun, Tsui-Wei Weng

分类: cs.CL, cs.LG

发布日期: 2025-03-27 (更新: 2025-03-29)

备注: Accepted to NAACL 2025 main conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于干预和抑制的LLM技能遗忘方法,无需训练且高效。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 技能遗忘 大型语言模型 神经元干预 键空间检测 无训练方法

📋 核心要点

  1. 大型语言模型的能力控制日益重要,但现有方法难以在遗忘特定技能的同时保持模型通用能力。
  2. 该论文通过观察神经元激活分布和键空间聚类,提出干预神经元和抑制键空间两种无需训练的技能遗忘方法。
  3. 实验表明,Key Space Detection方法在遗忘目标技能时性能显著下降,而对其他技能和通用知识影响较小。

📝 摘要(中文)

大型语言模型(LLMs)在各个领域展现了卓越的技能。理解其能力背后的机制并实施对其的控制,对于开发更好的模型变得越来越重要。本文关注LLMs中的技能遗忘,特别是遗忘特定技能,同时保留其整体能力。我们提出了两种轻量级的、无需训练的LLM技能遗忘技术。首先,我们观察到,当模型展示不同技能时,每个前馈层(FFL)中神经元的预激活分布是不同的。此外,我们发现触发相同技能的查询在FFL键空间内聚集,并且可以使用超立方体与其他查询分离。基于这些观察,我们提出了两种轻量级的、无需训练的技能遗忘方法,分别通过 extit{干预}和 extit{抑制}: exttt{Neuron Adjust}和 exttt{Key Space Detection}。我们在遗忘数学求解、Python编码和跨七种不同语言的理解技能上评估了我们的方法。结果表明,它们对指定技能具有强大的遗忘能力。具体而言, exttt{Key Space Detection}在遗忘技能上实现了超过80%的相对性能下降,而在其他技能和模型的通用知识(MMLU)上,对于大多数遗忘任务,相对性能下降小于10%。我们的代码可在https://github.com/Trustworthy-ML-Lab/effective_skill_unlearning上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的技能遗忘问题,即如何在不损害模型通用能力的前提下,使其遗忘特定的技能(如数学求解、Python编码等)。现有方法可能需要大量训练数据或复杂的模型修改,效率较低,且容易导致模型“灾难性遗忘”,影响其在其他任务上的表现。

核心思路:论文的核心思路是基于对LLM内部机制的观察。作者发现,当LLM表现不同技能时,其前馈层(FFL)中神经元的预激活分布存在差异;同时,触发相同技能的查询在FFL的键空间内会形成聚集。因此,可以通过干预神经元激活或抑制特定键空间来实现技能遗忘,而无需重新训练模型。

技术框架:该论文提出了两种主要的技能遗忘方法: exttt{Neuron Adjust}和 exttt{Key Space Detection}。 exttt{Neuron Adjust}通过调整FFL中神经元的激活值来抑制特定技能。 exttt{Key Space Detection}则通过识别并抑制与特定技能相关的键空间区域来实现遗忘。整体流程包括:1) 确定需要遗忘的技能;2) 使用少量样本分析FFL中的神经元激活分布或键空间;3) 根据分析结果,使用 exttt{Neuron Adjust}或 exttt{Key Space Detection}进行干预或抑制;4) 评估遗忘效果和对其他技能的影响。

关键创新:该论文的关键创新在于提出了两种无需训练的技能遗忘方法,这与传统的需要重新训练或微调的方法有本质区别。通过直接干预LLM的内部表示(神经元激活或键空间),实现了高效且具有针对性的技能遗忘,同时尽可能地保留了模型的通用能力。

关键设计: exttt{Neuron Adjust}的关键在于确定需要调整的神经元和调整的幅度,这可能需要一些启发式规则或搜索算法。 exttt{Key Space Detection}的关键在于如何准确地识别和分割与特定技能相关的键空间区域,论文中使用超立方体来表示这些区域。具体的参数设置和超立方体的边界确定方法在论文中可能有所描述,但摘要中未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明, exttt{Key Space Detection}方法在遗忘目标技能上实现了超过80%的相对性能下降,同时对其他技能和通用知识(MMLU)的影响较小,性能下降小于10%。这表明该方法能够在有效遗忘特定技能的同时,保持模型的整体能力。

🎯 应用场景

该研究成果可应用于对大型语言模型进行安全性和可靠性控制,例如移除模型中不希望存在的偏见或有害技能。此外,该方法可以用于定制化LLM,使其专注于特定领域或任务,同时避免不必要的知识干扰。未来,该技术有望在AI安全、模型编辑和知识管理等领域发挥重要作用。

📄 摘要(原文)

Large language Models (LLMs) have demonstrated remarkable skills across various domains. Understanding the mechanisms behind their abilities and implementing controls over them is becoming increasingly important for developing better models. In this paper, we focus on skill unlearning in LLMs, specifically unlearning a particular skill while retaining their overall capabilities. We introduce two lightweight, training-free machine skill unlearning techniques for LLMs. First, we observe that the pre-activation distribution of neurons in each Feed-Forward Layer (FFL) differs when the model demonstrates different skills. Additionally, we find that queries triggering the same skill cluster within the FFL key space and can be separated from other queries using a hypercube. Based on these observations, we propose two lightweight, training-free skill unlearning methods via \textit{intervention} and \textit{abstention} respectively: \texttt{Neuron Adjust} and \texttt{Key Space Detection}. We evaluate our methods on unlearning math-solving, Python-coding, and comprehension skills across seven different languages. The results demonstrate their strong unlearning capabilities for the designated skills. Specifically, \texttt{Key Space Detection} achieves over 80\% relative performance drop on the forgetting skill and less than 10\% relative performance drop on other skills and the model's general knowledge (MMLU) for most unlearning tasks. Our code is available at https://github.com/Trustworthy-ML-Lab/effective_skill_unlearning