Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning
作者: Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-10-09 (更新: 2025-10-17)
备注: Accepted by NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
SimNPO:通过简化负偏好优化解决LLM的不可学习性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 不可学习性 负偏好优化 参考模型偏差 数据移除
📋 核心要点
- 现有LLM不可学习方法,如梯度上升,存在优化发散问题,导致过度遗忘甚至模型崩溃;负偏好优化(NPO)虽有改进,但存在参考模型偏差。
- 论文提出SimNPO,通过简化偏好优化,去除对参考模型的依赖,从而克服NPO的参考模型偏差问题,实现更有效的不可学习。
- 实验表明,SimNPO在TOFU和MUSE等基准测试上表现优于现有方法,并且对重新学习攻击具有更强的鲁棒性。
📝 摘要(中文)
本文研究了大型语言模型(LLM)的不可学习性问题,旨在移除模型中不需要的数据影响(例如,受版权保护或有害的内容),同时保持模型的效用。尽管对不可学习性的需求日益增长,但缺乏一个技术上合理的优化框架。梯度上升(GA)类型的方法虽然被广泛使用,但由于它们在没有控制优化发散(即,偏离预训练状态)的情况下逆转学习过程,因此并非最佳选择,这导致过度遗忘和潜在的模型崩溃的风险。负偏好优化(NPO)已被提出以解决这个问题,并被认为是目前最先进的LLM不可学习方法之一。在这项工作中,我们重新审视了NPO,并发现了另一个关键问题:参考模型偏差。这种偏差源于使用参考模型(即,不可学习之前的模型)来评估不可学习的成功,这可能会损害NPO的有效性。具体来说,它导致(a)在具有不同难度级别的遗忘数据上优化能力的不均匀分配,以及(b)在不可学习优化早期阶段的无效梯度权重平滑。为了克服这些挑战,我们提出了一个简单而有效的不可学习优化框架,称为SimNPO,表明通过简单偏好优化的视角,消除对参考模型的依赖的“简单性”有利于不可学习。我们通过基于马尔可夫链混合的分析,更深入地了解了SimNPO的优势。大量的实验进一步验证了SimNPO在TOFU和MUSE等基准测试上的有效性,以及其对重新学习攻击的鲁棒性。代码可在https://github.com/OPTML-Group/Unlearn-Simple获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的不可学习性问题,即从模型中移除特定数据的影响,同时保持模型的通用能力。现有方法,特别是负偏好优化(NPO),依赖于参考模型来评估不可学习的效果,这导致了参考模型偏差,使得模型在不同难度的遗忘数据上优化能力分配不均,并且在优化初期梯度权重平滑效果不佳。
核心思路:论文的核心思路是简化负偏好优化,去除对参考模型的依赖。作者认为,通过直接优化模型,使其对目标遗忘数据产生负面偏好,可以避免参考模型偏差带来的问题,从而更有效地实现不可学习。这种简化后的方法被称为SimNPO。
技术框架:SimNPO的整体框架相对简单。它主要包含以下几个阶段:1)选择需要遗忘的数据;2)使用简化的偏好优化目标函数训练模型,使其对遗忘数据产生负面偏好;3)评估不可学习的效果,例如通过测试模型在遗忘数据上的表现,以及在保留数据上的表现。
关键创新:SimNPO最重要的创新点在于去除了对参考模型的依赖。传统的NPO方法使用参考模型来计算偏好,而SimNPO直接优化模型,使其对遗忘数据产生负面偏好。这种简化避免了参考模型偏差,使得模型能够更有效地遗忘目标数据。
关键设计:SimNPO的关键设计在于其简化的偏好优化目标函数。具体来说,论文可能采用了一种损失函数,该函数直接惩罚模型在遗忘数据上的表现,例如,通过最大化模型在遗忘数据上的困惑度,或者最小化模型生成遗忘数据的概率。具体的损失函数形式和优化算法需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SimNPO在TOFU和MUSE等基准测试上优于现有的不可学习方法。SimNPO不仅能够有效地遗忘目标数据,而且对重新学习攻击具有更强的鲁棒性,这意味着即使在经过不可学习处理后,模型也不容易重新学习到被遗忘的信息。
🎯 应用场景
该研究成果可应用于各种需要数据移除的场景,例如:移除LLM中的版权内容以避免侵权;移除有害或不当内容以提高模型的安全性;以及在用户要求删除个人数据时,从模型中移除相关信息。这有助于构建更安全、合规和负责任的LLM。
📄 摘要(原文)
This work studies the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences (e.g., copyrighted or harmful content) while preserving model utility. Despite the increasing demand for unlearning, a technically-grounded optimization framework is lacking. Gradient ascent (GA)-type methods, though widely used, are suboptimal as they reverse the learning process without controlling optimization divergence (i.e., deviation from the pre-trained state), leading to risks of over-forgetting and potential model collapse. Negative preference optimization (NPO) has been proposed to address this issue and is considered one of the state-of-the-art LLM unlearning approaches. In this work, we revisit NPO and identify another critical issue: reference model bias. This bias arises from using the reference model (i.e., the model prior to unlearning) to evaluate the unlearning success, which can compromise NPO's effectiveness. Specifically, it leads to (a) uneven allocation of optimization power across forget data with varying difficulty levels and (b) ineffective gradient weight smoothing during the early stages of unlearning optimization. To overcome these challenges, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that `simplicity' in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We provide deeper insights into SimNPO's advantages through an analysis based on mixtures of Markov chains. Extensive experiments further validate SimNPO's efficacy on benchmarks like TOFU and MUSE, as well as its robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.