Learning and Unlearning of Fabricated Knowledge in Language Models

📄 arXiv: 2410.21750v1 📥 PDF

作者: Chen Sun, Nolan Andrew Miller, Andrey Zhmoginov, Max Vladymyrov, Mark Sandler

分类: cs.CL, cs.AI

发布日期: 2024-10-29

期刊: ICML 2024 Workshop on Mechanistic Interpretability


💡 一句话要点

研究语言模型中虚构知识的学习与遗忘,并提出多步稀疏更新方法缓解数据中毒。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 知识学习 知识遗忘 数据中毒 稀疏更新 虚假知识 模型安全

📋 核心要点

  1. 大型语言模型容易受到数据中毒攻击,注入虚假知识会影响模型的行为,现有方法难以有效且持久地消除这些影响。
  2. 通过构建包含不同类型事实的数据集,研究模型对新知识的学习和遗忘过程,揭示了知识冲突事实的持久性和泛化能力。
  3. 提出多步稀疏更新方法,选择性地更新模型参数,能够在很大程度上消除知识冲突事实的影响,同时保持模型的训练能力。

📝 摘要(中文)

本文研究了在大型语言模型(LM)持续训练过程中,当新的知识被引入到训练数据中时会发生什么,以及这种知识会持续多久。通过将事实注入到语言模型中,并使用一个新的探测数据集“Outlandish”进行测试,该数据集旨在测试不同类型的事实。研究发现,在事实新颖性的谱系中,存在一个“最佳点”,即介于与世界知识的一致性和完全随机性之间,此时注入的记忆是最持久的。与常识相悖的事实会被记住数万个训练步骤,而与常识不冲突的事实(平凡的)以及被打乱的事实(随机的)都会更快地被遗忘。此外,与知识相悖的事实可以“启动”语言模型在逻辑上不相关的提示上的幻觉,表明它们容易产生非目标泛化,而平凡的和随机的事实的启动作用明显较小。最后,研究表明,知识冲突事实在语言模型中的影响虽然可能持续很长时间,但可以通过多步稀疏更新的新应用在很大程度上消除,同时保持模型的训练能力。因此,这种非常简单的程序对减轻训练中的数据中毒的影响具有直接意义。

🔬 方法详解

问题定义:论文旨在研究大型语言模型在持续训练过程中,对新引入的虚构知识的学习和遗忘特性。现有方法在应对数据中毒攻击时,难以有效且持久地消除注入的虚假知识,并且缺乏对不同类型虚假知识影响的深入理解。

核心思路:论文的核心思路是通过构建一个包含不同类型事实(包括与常识一致、与常识冲突和随机事实)的数据集,来研究语言模型对这些事实的学习和遗忘过程。通过观察模型在不同训练阶段对这些事实的记忆程度,以及这些事实对模型生成行为的影响,来揭示虚假知识的特性。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建名为“Outlandish”的探测数据集,包含不同类型的事实;2) 将这些事实注入到语言模型的训练数据中;3) 在训练过程中,定期使用探测数据集评估模型对这些事实的记忆程度;4) 研究不同类型的事实对模型生成行为的影响;5) 提出多步稀疏更新方法,尝试消除虚假知识的影响。

关键创新:论文的关键创新在于:1) 揭示了知识冲突事实在语言模型中具有更强的持久性和泛化能力,能够“启动”模型在逻辑上不相关的提示上的幻觉;2) 提出了一种简单有效的多步稀疏更新方法,能够在很大程度上消除知识冲突事实的影响,同时保持模型的训练能力。

关键设计:论文的关键设计包括:1) “Outlandish”数据集的设计,确保包含不同类型的事实,并能够有效地评估模型对这些事实的记忆程度;2) 多步稀疏更新方法的设计,通过选择性地更新模型参数,来消除虚假知识的影响。具体来说,该方法通过计算梯度,并选择梯度绝对值最大的参数进行更新,从而实现对模型知识的精确修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与常识相悖的事实比与常识一致或随机的事实更容易被记住,并且能够影响模型在其他任务上的生成行为。多步稀疏更新方法能够在很大程度上消除知识冲突事实的影响,同时保持模型的训练能力,为缓解数据中毒提供了一种有效途径。

🎯 应用场景

该研究成果可应用于提升语言模型的安全性,减轻数据中毒攻击的影响。通过理解模型对不同类型虚假知识的学习和遗忘特性,可以设计更有效的防御机制。多步稀疏更新方法为消除模型中的有害知识提供了一种可行的解决方案,有助于构建更可靠、值得信赖的语言模型。

📄 摘要(原文)

What happens when a new piece of knowledge is introduced into the training data and how long does it last while a large language model (LM) continues to train? We investigate this question by injecting facts into LMs from a new probing dataset, "Outlandish", which is designed to permit the testing of a spectrum of different fact types. When studying how robust these memories are, there appears to be a sweet spot in the spectrum of fact novelty between consistency with world knowledge and total randomness, where the injected memory is the most enduring. Specifically we show that facts that conflict with common knowledge are remembered for tens of thousands of training steps, while prompts not conflicting with common knowledge (mundane), as well as scrambled prompts (randomly jumbled) are both forgotten much more rapidly. Further, knowledge-conflicting facts can "prime'' how the language model hallucinates on logically unrelated prompts, showing their propensity for non-target generalization, while both mundane and randomly jumbled facts prime significantly less. Finally, we show that impacts of knowledge-conflicting facts in LMs, though they can be long lasting, can be largely erased by novel application of multi-step sparse updates, even while the training ability of the model is preserved. As such, this very simple procedure has direct implications for mitigating the effects of data poisoning in training.