Large Scale Knowledge Washing

📄 arXiv: 2405.16720v3 📥 PDF

作者: Yu Wang, Ruihan Wu, Zexue He, Xiusi Chen, Julian McAuley

分类: cs.CL

发布日期: 2024-05-26 (更新: 2025-02-15)

🔗 代码/项目: GITHUB


💡 一句话要点

提出LAW,通过更新MLP层实现大规模语言模型知识擦除,保持推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识擦除 大型语言模型 模型编辑 MLP层 反向传播

📋 核心要点

  1. 现有知识遗忘方法依赖反向传播和反向损失,易损模型能力,且需下游任务数据。
  2. LAW通过更新解码器模型中的MLP层权重来实现知识擦除,假设知识和推理可分离。
  3. 实验表明,LAW能有效遗忘目标知识,同时保持模型的推理能力,无需下游任务数据。

📝 摘要(中文)

大型语言模型在记忆世界知识方面表现出令人印象深刻的能力,但也引发了对记忆私人信息、有害或敏感知识以及受版权保护内容的担忧。本文介绍了大规模知识擦除问题,重点关注对大量事实知识的遗忘。以往的遗忘方法通常定义反向损失并通过反向传播更新模型,这可能会影响模型的流畅性和推理能力,甚至由于使用反向损失进行大量训练而破坏模型。现有工作引入来自下游任务的额外数据以防止模型失去能力,这需要下游任务感知。控制遗忘和保持现有能力之间的权衡也具有挑战性。为此,我们受到模型编辑方法的启发,并基于知识和推理是可分离的假设,提出了LAW(大规模擦除)来更新仅解码器大型语言模型中的MLP层以执行知识擦除。我们推导出一个新的目标,其中包含要遗忘的知识,以更新某些MLP层的权重。实验结果表明,LAW在遗忘目标知识的同时保持推理能力方面是有效的。代码将在https://github.com/wangyu-ustc/LargeScaleWashing开源。

🔬 方法详解

问题定义:大型语言模型记忆了大量知识,包括有害信息和版权内容,需要有效的方法来擦除这些知识。现有方法主要通过反向传播和反向损失来更新模型,但这种方式容易影响模型的流畅性和推理能力,甚至可能破坏模型。此外,一些方法需要引入下游任务数据,增加了复杂性。因此,如何在不损害模型性能的前提下,高效地擦除大规模知识是一个关键问题。

核心思路:LAW的核心思路是基于知识和推理能力是可分离的假设,通过选择性地更新模型中的MLP层来实现知识擦除。MLP层被认为是存储知识的关键位置,因此通过修改这些层的权重,可以在不影响模型整体结构和推理能力的前提下,有效地遗忘目标知识。这种方法避免了全局反向传播,降低了对模型性能的损害。

技术框架:LAW主要针对decoder-only的LLM,其框架主要包含以下步骤:1) 确定需要遗忘的目标知识;2) 基于目标知识,推导出一个新的目标函数,该目标函数旨在更新特定的MLP层的权重;3) 使用该目标函数来更新MLP层的权重,从而实现知识擦除。整个过程不需要额外的下游任务数据,并且可以控制遗忘的程度。

关键创新:LAW的关键创新在于其选择性更新MLP层的策略。与传统的全局反向传播方法不同,LAW只更新与目标知识相关的MLP层,从而避免了对模型整体结构的干扰。此外,LAW推导了一个新的目标函数,该函数能够有效地指导MLP层的权重更新,从而实现精确的知识擦除。这种方法在保持模型推理能力的同时,实现了高效的知识遗忘。

关键设计:LAW的关键设计在于目标函数的构建和MLP层的选择。目标函数的设计需要确保能够有效地指导MLP层的权重更新,从而实现精确的知识擦除。MLP层的选择需要基于对模型结构的理解,选择那些与目标知识密切相关的层。具体的参数设置和损失函数需要根据具体的模型和任务进行调整。论文中可能包含关于这些细节的具体描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文实验结果表明,LAW能够在有效遗忘目标知识的同时,保持模型的推理能力。具体的性能数据和对比基线需要在论文中查找,摘要中未提供具体的数值提升或对比信息。但结论是LAW在知识擦除和能力保持方面取得了平衡。

🎯 应用场景

LAW可应用于保护用户隐私、移除模型中的有害信息、以及处理版权问题。通过选择性地擦除模型中的敏感或不当知识,可以提高模型的安全性和可靠性,使其更适合在各种实际场景中使用。该技术还有助于模型适应新的知识环境,避免因旧知识而产生偏差。

📄 摘要(原文)

Large language models show impressive abilities in memorizing world knowledge, which leads to concerns regarding memorization of private information, toxic or sensitive knowledge, and copyrighted content. We introduce the problem of Large Scale Knowledge Washing, focusing on unlearning an extensive amount of factual knowledge. Previous unlearning methods usually define the reverse loss and update the model via backpropagation, which may affect the model's fluency and reasoning ability or even destroy the model due to extensive training with the reverse loss. Existing works introduce additional data from downstream tasks to prevent the model from losing capabilities, which requires downstream task awareness. Controlling the tradeoff of unlearning and maintaining existing capabilities is also challenging. To this end, we propose LAW (Large Scale Washing) to update the MLP layers in decoder-only large language models to perform knowledge washing, as inspired by model editing methods and based on the hypothesis that knowledge and reasoning are disentanglable. We derive a new objective with the knowledge to be unlearned to update the weights of certain MLP layers. Experimental results demonstrate the effectiveness of LAW in forgetting target knowledge while maintaining reasoning ability. The code will be open-sourced at https://github.com/wangyu-ustc/LargeScaleWashing.