A General Framework to Enhance Fine-tuning-based LLM Unlearning

作者: Jie Ren, Zhenwei Dai, Xianfeng Tang, Hui Liu, Jingying Zeng, Zhen Li, Rahul Goutam, Suhang Wang, Yue Xing, Qi He, Hui Liu

分类: cs.LG, cs.CL

发布日期: 2025-02-25 (更新: 2025-03-21)

💡 一句话要点

提出GRUN框架，提升基于微调的大语言模型遗忘能力和通用性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 遗忘学习 微调 表示学习 模型安全

📋 核心要点

现有基于微调的LLM遗忘方法，如梯度上升和抑制方法，通常会降低模型的通用性，影响正常使用。
GRUN框架通过软门控区分目标数据，并利用表示微调（ReFT）调整表示，而非直接修改模型参数。
实验结果表明，GRUN显著提升了遗忘能力和模型通用性，且适用于多种微调方法和顺序遗忘场景。

📝 摘要（中文）

本文提出了一种通用的框架，旨在提升基于微调的大语言模型（LLM）的遗忘能力。现有的方法主要依赖于基于微调的方法，可以分为基于梯度上升（GA-based）和基于抑制的方法。然而，这些方法通常会降低模型的通用性（即响应正常提示的能力）。本文首先研究了GA-based方法和基于抑制的方法之间的共同特性，发现GA-based方法通过区分目标数据（即要删除的数据）并抑制相关生成来进行遗忘，这与基于抑制的方法所采用的策略本质上相同。受此启发，本文引入了门控表示遗忘（Gated Representation UNlearning，GRUN），它包含两个组成部分：用于区分目标数据的软门控函数，以及使用表示微调（ReFT）来调整表示而非模型参数的抑制模块。实验表明，GRUN显著提高了遗忘能力和通用性。同时，它对于基于微调的方法具有通用性、高效性，并且在顺序遗忘方面具有前景。

🔬 方法详解

问题定义：现有的基于微调的大语言模型遗忘方法，例如梯度上升（GA-based）和抑制方法，在尝试移除模型中不需要的数据（如版权数据或隐私敏感数据）时，往往会损害模型的通用性，即模型在处理正常提示时的能力下降。这些方法直接修改模型的参数，容易导致模型“忘记”有用的知识，从而影响其整体性能。

核心思路：本文的核心思路是，通过解耦遗忘过程和模型参数的直接修改，来提升遗忘能力的同时，尽可能保留模型的通用性。具体来说，GRUN框架通过一个软门控机制来区分需要遗忘的目标数据，然后利用表示微调（ReFT）来调整模型的表示空间，而不是直接修改模型的参数。这样可以在一定程度上避免对模型原有知识的过度修改。

技术框架：GRUN框架主要包含两个核心模块：软门控函数和抑制模块。首先，软门控函数负责区分输入数据是否为需要遗忘的目标数据。然后，抑制模块利用表示微调（ReFT）技术，调整模型内部的表示空间，以降低模型对目标数据的敏感度。整个框架的流程是：输入数据首先经过软门控函数的判断，然后通过ReFT调整表示空间，最终输出结果。

关键创新：GRUN的关键创新在于其解耦了遗忘过程和模型参数的直接修改。传统的微调方法直接修改模型参数，容易导致模型“忘记”有用的知识。而GRUN通过调整表示空间来实现遗忘，可以在一定程度上避免对模型原有知识的过度修改，从而提升模型的通用性。此外，GRUN框架具有通用性，可以应用于多种基于微调的遗忘方法。

关键设计：软门控函数的设计需要能够准确区分目标数据和非目标数据。ReFT模块的关键在于选择合适的表示层进行微调，以及设计合适的损失函数来引导表示空间的调整。具体的参数设置和网络结构需要根据具体的应用场景进行调整。例如，可以使用交叉熵损失函数来引导表示空间远离目标数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRUN框架在提升遗忘能力的同时，显著提高了模型的通用性。与现有的基于微调的遗忘方法相比，GRUN在遗忘特定数据的同时，能够更好地保留模型在处理正常提示时的能力。具体的性能提升幅度取决于具体的实验设置和数据集，但总体趋势是GRUN能够显著优于现有的方法。

🎯 应用场景

GRUN框架可应用于各种需要从大语言模型中移除特定信息的场景，例如删除侵犯版权的数据、移除个人隐私信息、消除模型中的偏见等。该方法能够提升模型的安全性和合规性，并提高模型在实际应用中的可靠性。未来，GRUN有望成为大语言模型安全治理的重要工具。

📄 摘要（原文）

Unlearning has been proposed to remove copyrighted and privacy-sensitive data from Large Language Models (LLMs). Existing approaches primarily rely on fine-tuning-based methods, which can be categorized into gradient ascent-based (GA-based) and suppression-based methods. However, they often degrade model utility (the ability to respond to normal prompts). In this work, we aim to develop a general framework that enhances the utility of fine-tuning-based unlearning methods. To achieve this goal, we first investigate the common property between GA-based and suppression-based methods. We unveil that GA-based methods unlearn by distinguishing the target data (i.e., the data to be removed) and suppressing related generations, which is essentially the same strategy employed by suppression-based methods. Inspired by this finding, we introduce Gated Representation UNlearning (GRUN) which has two components: a soft gate function for distinguishing target data and a suppression module using Representation Fine-tuning (ReFT) to adjust representations rather than model parameters. Experiments show that GRUN significantly improves the unlearning and utility. Meanwhile, it is general for fine-tuning-based methods, efficient and promising for sequential unlearning.

A General Framework to Enhance Fine-tuning-based LLM Unlearning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理