Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models

作者: Huazheng Wang, Yongcheng Jing, Haifeng Sun, Yingjie Wang, Jingyu Wang, Jianxin Liao, Dacheng Tao

分类: cs.CL, cs.LG

发布日期: 2025-02-27 (更新: 2025-10-09)

🔗 代码/项目: GITHUB

💡 一句话要点

提出PerMU，通过概率扰动实现大语言模型中更广义的隐式知识遗忘。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 大语言模型 概率扰动 隐式知识 对抗学习

📋 核心要点

现有大语言模型遗忘方法难以泛化，无法彻底删除与目标数据相关的隐式知识，如释义或推理。
PerMU通过概率扰动模拟对抗性遗忘样本，降低与事实相关的token概率，从而实现更广义的知识遗忘。
实验结果表明，PerMU在遗忘目标数据和隐式知识方面均有显著提升，最高分别达50.40%和40.73%。

📝 摘要（中文）

本文研究大语言模型中的知识遗忘，重点关注其泛化能力，确保模型不仅遗忘特定的训练样本，还能遗忘相关的隐式知识。为此，我们首先确定了一个更广泛的遗忘范围，包括目标数据和逻辑上相关的样本，如释义、主体替换、关系反转和单跳推理数据。然后，我们对三种数据集上的15种最先进的方法进行了严格评估，发现未学习的模型仍然可以回忆释义的答案，并在其中间层保留目标事实。这促使我们朝着更广义的隐式知识遗忘迈出初步一步，提出了PerMU，一种新颖的基于概率扰动的遗忘范式。PerMU模拟对抗性遗忘样本，以消除logit分布中与事实相关的token，从而集体降低所有答案相关token的概率。在包括TOFU、Harry Potter、ZsRE、WMDP和MUSE在内的各种数据集上，使用规模从1.3B到13B的模型进行了实验。结果表明，PerMU在遗忘原始目标数据方面提高了高达50.40%，同时在遗忘隐式知识方面提高了40.73%。

🔬 方法详解

问题定义：现有的大语言模型遗忘方法主要集中在遗忘特定的训练样本，而忽略了与这些样本相关的隐式知识，例如对同一事实的不同表达方式（释义）、基于该事实的简单推理等。这意味着即使模型忘记了原始数据，仍然可能通过其他方式回忆起相关信息，导致遗忘效果不彻底。现有方法的痛点在于缺乏对隐式知识的有效处理，使得模型遗忘能力受限。

核心思路：PerMU的核心思路是通过概率扰动来模拟对抗性遗忘样本，从而消除logit分布中与事实相关的token。具体来说，PerMU不是直接修改模型的参数，而是通过调整模型输出的概率分布，降低所有与答案相关的token的概率。这样做的目的是让模型在预测时，即使遇到与已遗忘事实相关的输入，也不太可能给出正确的答案，从而实现更彻底的知识遗忘。

技术框架：PerMU的整体框架主要包含以下几个阶段：1) 确定遗忘范围：不仅包括目标数据，还包括释义、主体替换、关系反转和单跳推理等逻辑相关的样本。2) 生成对抗性遗忘样本：通过概率扰动模拟对抗性样本，旨在消除与事实相关的token。3) 概率扰动：调整模型的logit分布，降低与答案相关的token的概率。4) 评估遗忘效果：在目标数据和相关隐式知识上评估模型的遗忘效果。

关键创新：PerMU最重要的技术创新点在于其基于概率扰动的遗忘范式。与传统的参数修改方法不同，PerMU直接作用于模型的输出概率分布，通过降低与事实相关的token的概率来实现知识遗忘。这种方法更加灵活，可以有效地处理隐式知识，并且对模型的参数影响较小，从而更好地保持模型的通用能力。

关键设计：PerMU的关键设计在于如何有效地进行概率扰动。具体来说，PerMU通过模拟对抗性样本，识别出与事实相关的token，并降低这些token在logit分布中的概率。这种概率降低的程度可以通过超参数进行控制，以平衡遗忘效果和模型性能。此外，PerMU还采用了多种策略来生成对抗性样本，例如使用不同的释义方法、替换实体等，以确保遗忘的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PerMU在多个数据集上均取得了显著的遗忘效果提升。在遗忘原始目标数据方面，PerMU相比现有方法提高了高达50.40%。更重要的是，PerMU在遗忘隐式知识方面也表现出色，提升幅度达到40.73%。这些结果表明，PerMU能够更彻底地删除模型中的知识，并且具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于需要保护用户隐私、防止模型泄露敏感信息的场景，例如医疗、金融等领域。通过更彻底的知识遗忘，可以有效避免模型在未经授权的情况下泄露用户数据或敏感知识，提高模型的安全性和可靠性。此外，该技术还可以用于模型的持续学习和知识更新，帮助模型更好地适应新的环境和任务。

📄 摘要（原文）

In this paper, we investigate knowledge forgetting in large language models with a focus on its generalisation, ensuring that models forget not only specific training samples but also related implicit knowledge. To this end, we begin by identifying a broader unlearning scope that includes both target data and logically associated samples, including rephrased, subject-replaced, relation-reversed, and one-hop reasoned data. We then conduct a rigorous evaluation of 15 state-of-the-art methods across three datasets, revealing that unlearned models still recall paraphrased answers and retain target facts in their intermediate layers. This motivates us to take a preliminary step toward more generalised implicit knowledge forgetting by proposing PerMU, a novel probability perturbation-based unlearning paradigm. PerMU simulates adversarial unlearning samples to eliminate fact-related tokens from the logit distribution, collectively reducing the probabilities of all answer-associated tokens. Experiments are conducted on a diverse range of datasets, including TOFU, Harry Potter, ZsRE, WMDP, and MUSE, using models ranging from 1.3B to 13B in scale. The results demonstrate that PerMU delivers up to a 50.40% improvement in unlearning vanilla target data while maintaining a 40.73% boost in forgetting implicit knowledge. Our code can be found in https://github.com/MaybeLizzy/PERMU.

Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理