De-attribute to Forget for LLM Unlearning
作者: Xinyang Lu, Jiabao Pan, Rachael Hwee Ling Sim, See-Kiong Ng, Anthony Kum Hoe Tung, Bryan Kian Hsiang Low
分类: cs.LG, cs.AI
发布日期: 2026-05-29
💡 一句话要点
提出DareU框架,通过数据归因奖励的强化学习实现LLM的有效解学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM解学习 数据归因 强化学习 遗忘学习 模型效用
📋 核心要点
- 现有LLM解学习方法依赖损失优化,易导致过度遗忘和模型效用下降。
- DareU框架将解学习目标转化为消除数据归因,通过强化学习降低模型对遗忘数据的依赖。
- 实验表明,DareU在有效解学习的同时,能更好地平衡遗忘质量和模型效用。
📝 摘要(中文)
大型语言模型(LLM)的快速发展引发了人们对其训练中使用不当数据的担忧,从而导致人们对LLM解学习的兴趣日益浓厚。许多现有的LLM解学习方法依赖于优化预测损失,例如最大化遗忘集上的损失,但通常面临过度遗忘和模型效用差等关键问题。为了解决这些问题,本文创新性地将LLM解学习的优化目标定义为消除数据归因。特别地,我们提出了第一个基于数据归因奖励的LLM解学习框架DareU,该框架执行强化学习,通过减少其生成的响应(即,去归因)对遗忘数据所有者的归因分数来更新LLM。使用LLM分类器作为归因的有效近似的经验评估表明,DareU优于现有的基线,实现了有效的解学习,同时很好地平衡了遗忘质量和模型效用。
🔬 方法详解
问题定义:现有的LLM解学习方法主要通过优化损失函数来实现,例如增大模型在遗忘数据集上的损失。然而,这种方法容易导致“过度遗忘”,即模型不仅忘记了需要遗忘的信息,还可能影响到模型在其他任务上的性能,降低模型效用。因此,如何在有效遗忘特定信息的同时,保持模型的整体性能是一个关键问题。
核心思路:本文的核心思路是将LLM的解学习问题转化为一个数据归因问题。具体来说,目标是降低模型生成内容对遗忘数据的“归因”,即减少模型输出对特定遗忘数据的依赖程度。通过降低这种依赖,可以实现更精确的遗忘,避免过度遗忘带来的负面影响。
技术框架:DareU框架采用强化学习方法来实现数据归因的降低。整体流程如下:首先,使用一个LLM分类器来近似计算模型生成内容对遗忘数据的归因分数。然后,将这个归因分数作为强化学习的奖励信号,指导模型进行更新。模型通过调整其参数,学习生成更少依赖于遗忘数据的内容,从而实现解学习。
关键创新:DareU框架的关键创新在于将解学习问题转化为数据归因问题,并利用强化学习来优化这个目标。与传统的基于损失优化的方法不同,DareU直接关注模型对遗忘数据的依赖程度,从而能够更精确地控制遗忘过程,避免过度遗忘。
关键设计:DareU框架的关键设计包括:1) 使用LLM分类器来近似计算数据归因分数,这是一个高效且可扩展的方法。2) 将归因分数作为强化学习的奖励信号,引导模型进行参数更新。3) 采用合适的强化学习算法(具体算法未知)来优化模型,平衡遗忘质量和模型效用。具体的损失函数和网络结构细节在论文中可能有所描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
DareU框架在实验中表现出优于现有基线的解学习效果。通过使用LLM分类器作为归因的有效近似,DareU在实现有效解学习的同时,能够更好地平衡遗忘质量和模型效用。具体的性能数据和提升幅度需要在论文中查找,摘要中未提供详细数据。
🎯 应用场景
该研究成果可应用于各种需要数据解学习的场景,例如保护用户隐私、移除模型中的偏见信息、以及应对版权问题等。通过有效解学习,可以使LLM更加安全可靠,并促进其在各个领域的广泛应用。未来,该方法可以进一步扩展到其他类型的机器学习模型和数据类型。
📄 摘要(原文)
The rapid development of large language models (LLMs) has raised concerns on the use of inappropriate data for training, which has led to a growing interest in LLM unlearning. Many existing LLM unlearning approaches rely on optimizing prediction loss(es), such as maximizing the loss on the forget set, but often face critical issues like over-forgetting and poor model utility. To address them, this paper novelly frames the optimization objective for LLM unlearning as one of zeroing out data attribution instead. In particular, we propose the first LLM unlearning framework based on data attribution rewards called DareU that performs reinforcement learning to update the LLM by reducing the attribution score of its generated responses (i.e., de-attributing) to the forget data owners. Empirical evaluation using an LLM classifier as an efficient approximation of attribution shows that DareU outperforms existing baselines by achieving effective unlearning while balancing forget quality and model utility well.