A General Framework to Enhance Fine-tuning-based LLM Unlearning

📄 arXiv: 2502.17823v2 📥 PDF

作者: Jie Ren, Zhenwei Dai, Xianfeng Tang, Hui Liu, Jingying Zeng, Zhen Li, Rahul Goutam, Suhang Wang, Yue Xing, Qi He, Hui Liu

分类: cs.LG, cs.CL

发布日期: 2025-02-25 (更新: 2025-03-21)


💡 一句话要点

提出GRUN框架,提升基于微调的大语言模型遗忘能力和通用性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 遗忘学习 微调 表示学习 模型安全

📋 核心要点

  1. 现有基于微调的LLM遗忘方法,如梯度上升和抑制方法,通常会降低模型的通用性,影响正常使用。
  2. GRUN框架通过软门控区分目标数据,并利用表示微调(ReFT)调整表示,而非直接修改模型参数。
  3. 实验结果表明,GRUN显著提升了遗忘能力和模型通用性,且适用于多种微调方法和顺序遗忘场景。

📝 摘要(中文)

本文提出了一种通用的框架,旨在提升基于微调的大语言模型(LLM)的遗忘能力。现有的方法主要依赖于基于微调的方法,可以分为基于梯度上升(GA-based)和基于抑制的方法。然而,这些方法通常会降低模型的通用性(即响应正常提示的能力)。本文首先研究了GA-based方法和基于抑制的方法之间的共同特性,发现GA-based方法通过区分目标数据(即要删除的数据)并抑制相关生成来进行遗忘,这与基于抑制的方法所采用的策略本质上相同。受此启发,本文引入了门控表示遗忘(Gated Representation UNlearning,GRUN),它包含两个组成部分:用于区分目标数据的软门控函数,以及使用表示微调(ReFT)来调整表示而非模型参数的抑制模块。实验表明,GRUN显著提高了遗忘能力和通用性。同时,它对于基于微调的方法具有通用性、高效性,并且在顺序遗忘方面具有前景。

🔬 方法详解

问题定义:现有的基于微调的大语言模型遗忘方法,例如梯度上升(GA-based)和抑制方法,在尝试移除模型中不需要的数据(如版权数据或隐私敏感数据)时,往往会损害模型的通用性,即模型在处理正常提示时的能力下降。这些方法直接修改模型的参数,容易导致模型“忘记”有用的知识,从而影响其整体性能。

核心思路:本文的核心思路是,通过解耦遗忘过程和模型参数的直接修改,来提升遗忘能力的同时,尽可能保留模型的通用性。具体来说,GRUN框架通过一个软门控机制来区分需要遗忘的目标数据,然后利用表示微调(ReFT)来调整模型的表示空间,而不是直接修改模型的参数。这样可以在一定程度上避免对模型原有知识的过度修改。

技术框架:GRUN框架主要包含两个核心模块:软门控函数和抑制模块。首先,软门控函数负责区分输入数据是否为需要遗忘的目标数据。然后,抑制模块利用表示微调(ReFT)技术,调整模型内部的表示空间,以降低模型对目标数据的敏感度。整个框架的流程是:输入数据首先经过软门控函数的判断,然后通过ReFT调整表示空间,最终输出结果。

关键创新:GRUN的关键创新在于其解耦了遗忘过程和模型参数的直接修改。传统的微调方法直接修改模型参数,容易导致模型“忘记”有用的知识。而GRUN通过调整表示空间来实现遗忘,可以在一定程度上避免对模型原有知识的过度修改,从而提升模型的通用性。此外,GRUN框架具有通用性,可以应用于多种基于微调的遗忘方法。

关键设计:软门控函数的设计需要能够准确区分目标数据和非目标数据。ReFT模块的关键在于选择合适的表示层进行微调,以及设计合适的损失函数来引导表示空间的调整。具体的参数设置和网络结构需要根据具体的应用场景进行调整。例如,可以使用交叉熵损失函数来引导表示空间远离目标数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRUN框架在提升遗忘能力的同时,显著提高了模型的通用性。与现有的基于微调的遗忘方法相比,GRUN在遗忘特定数据的同时,能够更好地保留模型在处理正常提示时的能力。具体的性能提升幅度取决于具体的实验设置和数据集,但总体趋势是GRUN能够显著优于现有的方法。

🎯 应用场景

GRUN框架可应用于各种需要从大语言模型中移除特定信息的场景,例如删除侵犯版权的数据、移除个人隐私信息、消除模型中的偏见等。该方法能够提升模型的安全性和合规性,并提高模型在实际应用中的可靠性。未来,GRUN有望成为大语言模型安全治理的重要工具。

📄 摘要(原文)

Unlearning has been proposed to remove copyrighted and privacy-sensitive data from Large Language Models (LLMs). Existing approaches primarily rely on fine-tuning-based methods, which can be categorized into gradient ascent-based (GA-based) and suppression-based methods. However, they often degrade model utility (the ability to respond to normal prompts). In this work, we aim to develop a general framework that enhances the utility of fine-tuning-based unlearning methods. To achieve this goal, we first investigate the common property between GA-based and suppression-based methods. We unveil that GA-based methods unlearn by distinguishing the target data (i.e., the data to be removed) and suppressing related generations, which is essentially the same strategy employed by suppression-based methods. Inspired by this finding, we introduce Gated Representation UNlearning (GRUN) which has two components: a soft gate function for distinguishing target data and a suppression module using Representation Fine-tuning (ReFT) to adjust representations rather than model parameters. Experiments show that GRUN significantly improves the unlearning and utility. Meanwhile, it is general for fine-tuning-based methods, efficient and promising for sequential unlearning.