LLM Unlearning via Loss Adjustment with Only Forget Data

📄 arXiv: 2410.11143v1 📥 PDF

作者: Yaxuan Wang, Jiaheng Wei, Chris Yuhao Liu, Jinlong Pang, Quan Liu, Ankit Parag Shah, Yujia Bao, Yang Liu, Wei Wei

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-14

备注: Paper under review


💡 一句话要点

提出FLAT方法,仅用遗忘数据调整损失,实现大语言模型高效解学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 解学习 遗忘学习 隐私保护 损失调整

📋 核心要点

  1. 现有LLM解学习方法依赖保留数据或参考模型,导致遗忘与保留数据边界模糊,影响模型整体效用。
  2. FLAT方法仅利用遗忘数据,通过最大化f-散度来指导模型学习不应响应的内容和方式,避免优化不稳定。
  3. 实验表明,FLAT在版权内容和实体解学习任务上优于现有方法,同时保持了模型在其他任务上的性能。

📝 摘要(中文)

大语言模型(LLM)的解学习对于确保负责任和符合伦理的人工智能应用至关重要,尤其是在解决隐私泄露、偏见、安全和不断变化的法规方面。现有的LLM解学习方法通常依赖于保留数据或参考LLM,但它们难以充分平衡解学习性能与整体模型效用。这是因为利用显式保留数据或来自参考LLM的保留数据的隐式知识来微调模型,往往会模糊遗忘数据和保留数据之间的界限,因为不同的查询通常会引发相似的响应。本文提出消除在LLM解学习中对保留数据或参考LLM进行响应校准的需求。认识到直接对遗忘数据应用梯度上升通常会导致优化不稳定和性能不佳,我们的方法基于遗忘数据指导LLM不应该响应什么,以及重要的是,如何响应。因此,我们引入了仅使用遗忘数据的损失调整(FLAT),这是一种“扁平”损失调整方法,通过最大化可用模板答案和遗忘答案之间的f-散度来解决这些问题。定义的f-散度的变分形式从理论上提供了一种通过为模板响应的学习和受解学习约束的响应的遗忘分配不同的重要性权重来进行损失调整的方法。实验结果表明,与现有方法相比,我们的方法不仅实现了卓越的解学习性能,而且最大限度地减少了对模型保留能力的影响,确保了跨各种任务(包括哈利波特数据集和MUSE基准上的版权内容解学习,以及TOFU数据集上的实体解学习)的高效用。

🔬 方法详解

问题定义:现有LLM解学习方法通常需要访问保留数据或参考LLM,这在实际应用中可能不可行或增加计算成本。此外,依赖保留数据进行微调容易导致模型在遗忘数据和保留数据之间产生混淆,降低解学习的有效性,并可能损害模型的通用能力。因此,如何在不依赖保留数据或参考LLM的情况下,实现高效且不影响模型效用的解学习是一个关键问题。

核心思路:FLAT方法的核心思路是仅利用遗忘数据来调整模型的损失函数,从而引导模型学习不应该对遗忘数据做出响应。通过最大化模板答案和遗忘答案之间的f-散度,FLAT能够有效地将遗忘数据从模型的知识中移除,同时避免了直接梯度上升带来的优化不稳定问题。这种方法的核心在于,它不仅告诉模型“不要做什么”,还指导模型“如何不做”,从而更有效地实现解学习。

技术框架:FLAT方法主要包含以下几个步骤:1) 收集需要遗忘的数据(forget data);2) 定义一个模板答案(template answer),代表模型不应该对遗忘数据做出的响应;3) 计算遗忘数据对应的模型输出和模板答案之间的f-散度;4) 通过调整损失函数,最大化该f-散度,从而引导模型遗忘相关知识。整个过程不需要访问保留数据或参考LLM。

关键创新:FLAT方法的关键创新在于其仅使用遗忘数据进行损失调整,避免了对保留数据的依赖。通过最大化f-散度,FLAT能够更有效地将遗忘数据从模型中移除,同时减少对模型整体性能的影响。此外,FLAT方法还解决了直接梯度上升带来的优化不稳定问题,提高了训练的稳定性和效率。与现有方法相比,FLAT在解学习性能和模型效用之间取得了更好的平衡。

关键设计:FLAT方法中的关键设计包括:1) f-散度的选择:论文中具体使用的f-散度类型(例如KL散度、JS散度等)会影响解学习的效果和稳定性。2) 模板答案的设计:模板答案的选择应该能够代表模型不应该对遗忘数据做出的响应,例如,可以是一个通用的否定回答或一个随机生成的文本。3) 损失函数的调整方式:通过调整损失函数中不同项的权重,可以控制模型对模板答案的学习和对遗忘数据的遗忘程度。论文中使用了f-散度的变分形式来指导损失调整,为模板响应的学习和遗忘响应分配不同的重要性权重。

📊 实验亮点

实验结果表明,FLAT方法在哈利波特数据集和MUSE基准上的版权内容解学习以及TOFU数据集上的实体解学习任务中,均优于现有方法。具体而言,FLAT在实现更高解学习性能的同时,最大限度地减少了对模型保留能力的影响,确保了模型在其他任务上的高效用。

🎯 应用场景

FLAT方法可应用于各种需要保护隐私、消除偏见或遵守法规的场景,例如:从LLM中移除个人身份信息、删除不当内容、消除模型中的偏见、以及应对版权侵权问题。该方法具有广泛的应用前景,有助于构建更安全、负责任和符合伦理的LLM。

📄 摘要(原文)

Unlearning in Large Language Models (LLMs) is essential for ensuring ethical and responsible AI use, especially in addressing privacy leak, bias, safety, and evolving regulations. Existing approaches to LLM unlearning often rely on retain data or a reference LLM, yet they struggle to adequately balance unlearning performance with overall model utility. This challenge arises because leveraging explicit retain data or implicit knowledge of retain data from a reference LLM to fine-tune the model tends to blur the boundaries between the forgotten and retain data, as different queries often elicit similar responses. In this work, we propose eliminating the need to retain data or the reference LLM for response calibration in LLM unlearning. Recognizing that directly applying gradient ascent on the forget data often leads to optimization instability and poor performance, our method guides the LLM on what not to respond to, and importantly, how to respond, based on the forget data. Hence, we introduce Forget data only Loss AjustmenT (FLAT), a "flat" loss adjustment approach which addresses these issues by maximizing f-divergence between the available template answer and the forget answer only w.r.t. the forget data. The variational form of the defined f-divergence theoretically provides a way of loss adjustment by assigning different importance weights for the learning w.r.t. template responses and the forgetting of responses subject to unlearning. Empirical results demonstrate that our approach not only achieves superior unlearning performance compared to existing methods but also minimizes the impact on the model's retained capabilities, ensuring high utility across diverse tasks, including copyrighted content unlearning on Harry Potter dataset and MUSE Benchmark, and entity unlearning on the TOFU dataset.