Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models

📄 arXiv: 2409.13474v3 📥 PDF

作者: Anmol Mekala, Vineeth Dorna, Shreya Dubey, Abhishek Lalwani, David Koleczek, Mukund Rungta, Sadid Hasan, Elita Lobo

分类: cs.CL, cs.LG

发布日期: 2024-09-20 (更新: 2024-12-17)

期刊: Proceedings of the 31st International Conference on Computational Linguistics, volume 1, 2025, pages 3732-3752, Abu Dhabi, UAE. Association for Computational Linguistics

🔗 代码/项目: GITHUB


💡 一句话要点

提出AltPO方法,结合正负反馈优化LLM的事实知识遗忘,提升模型效用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 大型语言模型 偏好优化 正负反馈 模型效用

📋 核心要点

  1. 现有LLM遗忘方法仅依赖负反馈,易产生无意义或不一致的输出,损害模型效用。
  2. AltPO结合负反馈与领域内正反馈,优化遗忘集相关响应,提升遗忘质量。
  3. 实验表明,AltPO能有效遗忘知识,避免不良行为,并保持模型整体性能。

📝 摘要(中文)

本文旨在解决大型语言模型(LLM)中事实知识遗忘的问题。现有的遗忘方法主要依赖负反馈来抑制与遗忘集相关的响应,这常常导致输出内容无意义或不一致,降低了模型效用并带来潜在的隐私风险。为了解决这一局限性,我们提出了一种名为Alternate Preference Optimization (AltPO) 的新方法,该方法将负反馈与遗忘集上的领域内正反馈相结合。此外,我们还引入了新的评估指标来评估与遗忘集相关的响应质量。大量实验表明,我们的方法不仅能够实现有效的遗忘,而且能够避免不良的模型行为,同时保持整体模型性能。我们的实现代码可在 https://github.com/molereddy/Alternate-Preference-Optimization 找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的事实知识遗忘问题。现有方法主要依赖于负反馈,即通过惩罚模型对遗忘集中知识的响应来实现遗忘。这种方法的痛点在于,仅仅依靠负反馈容易导致模型产生不合理、不一致的输出,从而降低模型的可用性,并且可能因为模型输出不确定性信息而带来隐私泄露的风险。

核心思路:论文的核心思路是结合负反馈和正反馈。除了抑制模型对遗忘知识的响应(负反馈)之外,还通过提供领域内的正反馈,引导模型生成更合理、更符合逻辑的响应。这种正负反馈结合的方式,旨在避免模型在遗忘知识的同时,产生不期望的行为,从而提升遗忘的质量和模型的整体效用。

技术框架:AltPO方法的技术框架主要包含以下几个阶段:1) 构建遗忘数据集:确定需要遗忘的事实知识,并构建包含相关问题和答案的数据集。2) 负反馈优化:使用现有的遗忘技术,例如梯度下降等,来惩罚模型对遗忘数据集中问题的响应。3) 正反馈优化:针对遗忘数据集中的问题,提供领域内的合理答案,并使用这些答案来训练模型,使其能够生成更合理的响应。4) 交替优化:交替进行负反馈和正反馈优化,以达到更好的遗忘效果和模型效用。

关键创新:该方法最重要的创新点在于结合了负反馈和正反馈进行知识遗忘。与现有方法只关注如何抑制模型对遗忘知识的响应不同,AltPO还关注如何引导模型生成更合理的响应,从而避免了模型产生不期望的行为。这种正负反馈结合的思路,是该方法与现有方法的本质区别。

关键设计:AltPO的关键设计包括:1) 正反馈数据的构建:如何构建高质量的领域内正反馈数据,以引导模型生成更合理的响应。这可能涉及到人工标注、数据增强等技术。2) 正负反馈的平衡:如何平衡正反馈和负反馈的强度,以达到最佳的遗忘效果和模型效用。这可能需要通过实验来调整相关的超参数。3) 评估指标的设计:设计新的评估指标来评估遗忘的质量,包括遗忘的彻底性、模型效用以及模型行为的合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了AltPO方法的有效性。实验结果表明,AltPO不仅能够有效地遗忘知识,而且能够避免模型产生不期望的行为,同时保持模型的整体性能。具体的数据指标和对比基线在论文中进行了详细的展示,证明了AltPO在遗忘质量和模型效用方面都优于现有的方法。

🎯 应用场景

该研究成果可应用于各种需要知识遗忘的场景,例如:1) 保护用户隐私,从模型中删除用户的敏感信息。2) 修正模型中的错误知识,例如删除模型中关于错误事实的记忆。3) 适应知识更新,删除模型中过时的知识。该研究有助于提升LLM的安全性、可靠性和适应性。

📄 摘要(原文)

Machine unlearning aims to efficiently eliminate the influence of specific training data, known as the forget set, from the model. However, existing unlearning methods for Large Language Models (LLMs) face a critical challenge: they rely solely on negative feedback to suppress responses related to the forget set, which often results in nonsensical or inconsistent outputs, diminishing model utility and posing potential privacy risks. To address this limitation, we propose a novel approach called Alternate Preference Optimization (AltPO), which combines negative feedback with in-domain positive feedback on the forget set. Additionally, we introduce new evaluation metrics to assess the quality of responses related to the forget set. Extensive experiments show that our approach not only enables effective unlearning but also avoids undesirable model behaviors while maintaining overall model performance. Our implementation can be found at https://github.com/molereddy/Alternate-Preference-Optimization.