Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference
作者: Jiabao Ji, Yujian Liu, Yang Zhang, Gaowen Liu, Ramana Rao Kompella, Sijia Liu, Shiyu Chang
分类: cs.CL, cs.AI
发布日期: 2024-06-12
备注: 21 pages, 11 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出ULD框架,通过Logit差分实现高效LLM知识遗忘,解决传统方法退化输出和灾难性遗忘问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM知识遗忘 Logit差分 反向学习 模型解学习 隐私保护
📋 核心要点
- 现有LLM知识遗忘方法依赖最大化遗忘数据损失和最小化保留数据损失的优化,易导致模型输出退化和灾难性遗忘。
- ULD框架引入辅助LLM,反向学习遗忘和保留知识,通过目标LLM与辅助LLM的Logit差分得到遗忘后的模型。
- 实验表明ULD在保证模型效用的同时,显著提升训练效率,在ToFU基准测试中模型效用损失为0%,训练时间减少三倍以上。
📝 摘要(中文)
随着大型语言模型(LLM)在文档学习方面展现出广泛的能力,LLM知识遗忘已成为一个日益重要的研究领域,以解决LLM在隐私、版权等方面的担忧。传统的LLM知识遗忘任务通常涉及两个目标:(1)目标LLM应该忘记指定遗忘文档中的知识,以及(2)它应该保留LLM拥有的其他知识,为此我们假设可以访问少量保留文档。为了实现这两个目标,主流的LLM知识遗忘方法引入了一个优化框架,该框架结合了两个目标——最大化遗忘文档上的预测损失,同时最小化保留文档上的预测损失,但这面临着退化输出和灾难性遗忘这两个挑战。在本文中,我们提出了一种新颖的知识遗忘框架,称为基于Logit差分的知识遗忘(ULD),它引入了一个辅助LLM,旨在实现与知识遗忘目标相反的目标:记住遗忘文档并忘记保留知识。然后,ULD通过计算目标LLM和辅助LLM之间的logit差来推导出遗忘后的LLM。我们表明,这种反向目标自然会解决上述两个挑战,同时显着提高训练效率。大量的实验表明,我们的方法有效地实现了预期的遗忘,同时保留了LLM的整体能力,并将训练时间减少了三倍以上。值得注意的是,我们的方法在ToFU基准测试中损失了0%的模型效用,而基线方法平均可能牺牲17%的效用才能实现相当的遗忘质量。
🔬 方法详解
问题定义:LLM知识遗忘旨在使模型忘记特定知识(遗忘文档),同时保留其他已知知识(保留文档)。现有方法通常采用优化框架,通过最大化遗忘文档的预测损失和最小化保留文档的预测损失来实现。然而,这种方法容易导致模型输出退化,即模型生成无意义或低质量的文本,以及灾难性遗忘,即模型忘记了大量原本应该保留的知识。
核心思路:ULD的核心思路是引入一个辅助LLM,其目标与目标LLM相反:辅助LLM学习记住遗忘文档并忘记保留文档。通过计算目标LLM和辅助LLM在logit空间的差异,ULD可以有效地消除目标LLM中与遗忘文档相关的知识,同时保留与保留文档相关的知识。这种反向学习策略避免了直接优化预测损失带来的问题。
技术框架:ULD框架包含两个主要组件:目标LLM和辅助LLM。首先,使用遗忘文档和保留文档分别训练目标LLM和辅助LLM,使其分别学习忘记和记住这些知识。然后,对于给定的输入,计算目标LLM和辅助LLM的logit输出。最后,通过计算两个logit输出的差值,得到最终的预测结果。这个差值代表了目标LLM中与遗忘文档相关的知识的消除。
关键创新:ULD最重要的创新点在于其反向学习策略。与传统方法直接优化预测损失不同,ULD通过训练一个辅助LLM来学习与遗忘目标相反的任务,从而避免了优化过程中的梯度冲突和模型退化问题。此外,ULD利用logit差分来消除知识,这是一种更精确和高效的知识遗忘方法。
关键设计:ULD的关键设计包括:(1) 辅助LLM的训练方式,需要确保其能够有效地记住遗忘文档并忘记保留文档;(2) Logit差分的计算方式,需要选择合适的权重和归一化方法,以确保知识消除的准确性和稳定性;(3) 目标LLM和辅助LLM的模型结构和参数设置,需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
ULD在ToFU基准测试中实现了0%的模型效用损失,显著优于基线方法(平均损失17%)。同时,ULD将训练时间减少了三倍以上,表明其具有更高的训练效率。这些实验结果表明,ULD是一种高效且有效的LLM知识遗忘方法,可以在保证模型性能的同时,实现高质量的知识遗忘。
🎯 应用场景
ULD框架可应用于各种需要LLM知识遗忘的场景,例如保护用户隐私、遵守版权法规、消除模型中的偏见和有害信息等。该方法可以帮助企业和研究机构更安全、更合规地使用LLM,并提高LLM的可靠性和可信度。未来,ULD可以扩展到更复杂的知识遗忘任务,例如选择性遗忘和持续遗忘。
📄 摘要(原文)
As Large Language Models (LLMs) demonstrate extensive capability in learning from documents, LLM unlearning becomes an increasingly important research area to address concerns of LLMs in terms of privacy, copyright, etc. A conventional LLM unlearning task typically involves two goals: (1) The target LLM should forget the knowledge in the specified forget documents, and (2) it should retain the other knowledge that the LLM possesses, for which we assume access to a small number of retain documents. To achieve both goals, a mainstream class of LLM unlearning methods introduces an optimization framework with a combination of two objectives - maximizing the prediction loss on the forget documents while minimizing that on the retain documents, which suffers from two challenges, degenerated output and catastrophic forgetting. In this paper, we propose a novel unlearning framework called Unlearning from Logit Difference (ULD), which introduces an assistant LLM that aims to achieve the opposite of the unlearning goals: remembering the forget documents and forgetting the retain knowledge. ULD then derives the unlearned LLM by computing the logit difference between the target and the assistant LLMs. We show that such reversed objectives would naturally resolve both aforementioned challenges while significantly improving the training efficiency. Extensive experiments demonstrate that our method efficiently achieves the intended forgetting while preserving the LLM's overall capabilities, reducing training time by more than threefold. Notably, our method loses 0% of model utility on the ToFU benchmark, whereas baseline methods may sacrifice 17% of utility on average to achieve comparable forget quality. Our code will be publicly available at https://github.com/UCSB-NLP-Chang/ULD.