Model Unlearning Objectives Vary for Distinct Language Functions
作者: Berk Atil, Vipul Gupta, Rebecca J. Passonneau
分类: cs.CL
发布日期: 2026-05-26
💡 一句话要点
针对不同语言功能,提出差异化的LLM模型遗忘目标,提升遗忘效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型遗忘 语言模型 危险知识 毒性检测 元学习 表示学习 自然语言处理
📋 核心要点
- 大型语言模型预训练过程中学习到不良属性,如危险知识和有毒文本,需要有效的遗忘方法。
- 针对危险知识和毒性两种不同的遗忘目标,论文提出了定制化的遗忘策略,而非一概而论。
- 实验表明,针对不同遗忘目标设计的策略,在多个7-8B模型上取得了优异的遗忘效果。
📝 摘要(中文)
大型语言模型(LLMs)在预训练过程中会学习到一些不良属性,包括危险知识和有毒文本生成。正如后训练使用不同的目标来塑造不同的行为一样,我们认为遗忘方法也应该针对具体的语言功能进行设计。为了研究这一点,我们考虑了两个在机制上不同的遗忘目标:危险知识遗忘和毒性遗忘。对于危险知识,我们引入了一种基于余弦相似度的元学习RMU变体。对于毒性,我们提出了一种基于层特定探针方向的多层目标。在四个开源的7-8B模型上,我们的方法基于针对两种遗忘类型的不同训练目标,取得了显著成果。总的来说,我们的结果表明,遗忘应该被视为一类问题,类似于LLM后训练的多种类型。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在预训练阶段学习到的不良属性,具体包括危险知识和有毒文本生成。现有遗忘方法通常采用统一策略,忽略了不同类型不良属性在机制上的差异,导致遗忘效果不佳。
核心思路:论文的核心思路是针对不同的语言功能(如危险知识和毒性),设计差异化的遗忘目标和方法。作者认为,类似于LLM的后训练需要针对不同任务设计不同的目标函数,遗忘也应该被视为一类问题,而非单一问题。
技术框架:论文针对两种遗忘目标分别提出了不同的方法。对于危险知识遗忘,采用了基于余弦相似度的元学习RMU(Representation Matching Unlearning)变体。对于毒性遗忘,提出了基于层特定探针方向的多层目标。整体框架是:首先确定需要遗忘的特定语言功能,然后设计针对该功能的遗忘目标和方法,最后在LLM上进行训练,评估遗忘效果。
关键创新:论文的关键创新在于:1) 强调了针对不同语言功能设计差异化遗忘目标的重要性;2) 针对危险知识提出了基于余弦相似度的元学习RMU变体,该方法能够更好地匹配遗忘前后的表示;3) 针对毒性提出了基于层特定探针方向的多层目标,该方法能够更精确地定位和消除模型中的毒性信息。
关键设计:对于危险知识遗忘,基于余弦相似度的元学习RMU变体,其关键在于使用余弦相似度来衡量遗忘前后表示的匹配程度,并使用元学习来优化遗忘过程。对于毒性遗忘,基于层特定探针方向的多层目标,其关键在于使用探针来识别模型中不同层级的毒性信息,并针对不同层级的信息进行选择性遗忘。具体的损失函数和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
论文在四个开源的7-8B模型上进行了实验,结果表明,针对不同遗忘目标设计的策略,能够有效降低模型中存在的危险知识和毒性。具体的性能数据和对比基线在论文中进行了详细展示,证明了所提出方法的优越性。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性与可靠性,例如,可以用于消除LLM中存在的偏见、歧视和有害信息,使其更符合伦理规范和社会价值观。此外,该研究也有助于开发更加可控和安全的AI系统,降低AI技术带来的潜在风险。
📄 摘要(原文)
Large language models (LLMs) learn undesirable properties during pretraining, including dangerous knowledge and toxic text generation. Just as post-training uses different objectives to shape different behaviors, we argue that unlearning methods should be designed for the language function at issue. To study this, we consider two mechanistically distinct unlearning goals, dangerous-knowledge unlearning and toxicity unlearning. For dangerous knowledge, we introduce a cosine-based, meta-learned variant of RMU. For toxicity, we propose a multi-layer objective based on layer-specific probe directions. Across four open-source 7-8B models, our methods achieve strong results, based on distinct training objectives for the two types of unlearning. Overall, our results suggest that unlearning should be studied as a family of problems, analogous to the multiple types of LLM post-training.