GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection

📄 arXiv: 2505.13312v1 📥 PDF

作者: Zhijie Deng, Chris Yuhao Liu, Zirui Pang, Xinlei He, Lei Feng, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

分类: cs.CL

发布日期: 2025-05-19


💡 一句话要点

提出GUARD:一种基于自适应限制和检测的生成时LLM知识遗忘框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 生成时干预 大型语言模型 自适应限制 提示分类器

📋 核心要点

  1. 现有LLM知识遗忘方法依赖微调,导致遗忘知识和保留知识的边界模糊,损害模型整体性能。
  2. GUARD框架通过在生成时动态限制和检测,避免微调,从而安全地阻止模型生成与遗忘目标相关的响应。
  3. 实验表明,GUARD在版权和实体遗忘任务中表现出色,实现了良好的遗忘质量,且几乎不影响LLM的通用能力。

📝 摘要(中文)

大型语言模型(LLM)在记忆各个领域的知识方面表现出强大的能力。然而,选择性地遗忘特定知识对于确保已部署模型的安全性和合规性至关重要。现有的知识遗忘方法通常使用遗忘数据、保留数据和校准模型等资源对模型进行微调。这些额外的梯度步骤模糊了遗忘知识和保留知识之间的决策边界,使得知识遗忘往往以牺牲整体性能为代价。为了避免微调的负面影响,最好仅在推理时通过安全地保护模型免于生成与遗忘目标相关的响应来实现知识遗忘,而不会破坏文本生成的流畅性。本文提出了基于自适应限制和检测的生成时知识遗忘(GUARD),该框架能够在LLM生成期间实现动态知识遗忘。具体来说,我们首先使用提示分类器来检测遗忘目标并提取相应的禁止token。然后,我们使用token匹配和语义匹配的组合在生成过程中动态地惩罚和过滤候选token,从而有效地防止模型泄露遗忘的内容。在Harry Potter数据集和MUSE基准上的版权内容遗忘任务以及TOFU数据集上的实体遗忘任务的实验结果表明,GUARD在各种任务中实现了强大的遗忘质量,同时几乎不会降低LLM的通用能力,从而在遗忘和效用之间取得了极好的平衡。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在推理阶段如何安全有效地遗忘特定知识的问题。现有方法主要依赖于微调,这会模糊遗忘知识和保留知识之间的边界,导致模型在遗忘特定内容的同时,整体性能下降。因此,如何在不进行微调的情况下,实现LLM的知识遗忘是一个关键挑战。

核心思路:GUARD的核心思路是在LLM生成文本的过程中,动态地检测并限制与遗忘目标相关的token生成。通过在生成时进行干预,避免了微调带来的负面影响,从而在保证遗忘效果的同时,维持模型的通用能力。这种方法类似于在模型输出前设置一道“安全防线”,防止其泄露遗忘内容。

技术框架:GUARD框架主要包含两个阶段:自适应限制和检测。首先,使用一个提示分类器来检测输入提示中是否包含需要遗忘的目标,并提取相应的禁止token。然后,在LLM生成token的过程中,GUARD会动态地惩罚和过滤候选token。这个过程结合了token匹配和语义匹配两种方法,以更准确地识别和阻止与遗忘目标相关的token生成。

关键创新:GUARD的关键创新在于其生成时遗忘的策略,避免了传统微调方法的缺点。通过动态限制和检测,GUARD能够在不改变模型参数的情况下,实现知识遗忘。此外,GUARD还结合了token匹配和语义匹配,提高了遗忘的准确性和鲁棒性。

关键设计:GUARD框架的关键设计包括:1) 提示分类器的选择和训练,用于准确识别遗忘目标;2) token匹配和语义匹配的权重设置,以平衡遗忘的准确性和模型的流畅性;3) 动态惩罚和过滤的阈值设定,以避免过度限制导致生成质量下降。具体参数设置和损失函数细节在论文中可能未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

GUARD在Harry Potter数据集和MUSE基准上进行了版权内容遗忘任务的实验,并在TOFU数据集上进行了实体遗忘任务的实验。实验结果表明,GUARD在实现强大遗忘质量的同时,几乎没有降低LLM的通用能力,在遗忘和效用之间取得了良好的平衡。具体的性能提升数据未知,需要在论文中查找。

🎯 应用场景

GUARD框架可应用于多种场景,例如:保护版权内容,防止LLM泄露敏感信息,以及满足法规遵从性要求。该技术有助于提升LLM在实际应用中的安全性和可靠性,降低因模型生成不当内容而带来的风险。未来,该技术有望在内容审核、信息过滤等领域发挥重要作用。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated strong capabilities in memorizing vast amounts of knowledge across diverse domains. However, the ability to selectively forget specific knowledge is critical for ensuring the safety and compliance of deployed models. Existing unlearning efforts typically fine-tune the model with resources such as forget data, retain data, and a calibration model. These additional gradient steps blur the decision boundary between forget and retain knowledge, making unlearning often at the expense of overall performance. To avoid the negative impact of fine-tuning, it would be better to unlearn solely at inference time by safely guarding the model against generating responses related to the forget target, without destroying the fluency of text generation. In this work, we propose Generation-time Unlearning via Adaptive Restriction and Detection (GUARD), a framework that enables dynamic unlearning during LLM generation. Specifically, we first employ a prompt classifier to detect unlearning targets and extract the corresponding forbidden token. We then dynamically penalize and filter candidate tokens during generation using a combination of token matching and semantic matching, effectively preventing the model from leaking the forgotten content. Experimental results on copyright content unlearning tasks over the Harry Potter dataset and the MUSE benchmark, as well as entity unlearning tasks on the TOFU dataset, demonstrate that GUARD achieves strong forget quality across various tasks while causing almost no degradation to the LLM's general capabilities, striking an excellent trade-off between forgetting and utility.