Forgetting-MarI: LLM Unlearning via Marginal Information Regularization
作者: Shizhou Xu, Yuan Ni, Stefan Broecker, Thomas Strohmer
分类: cs.AI, cs.CL, cs.CR, cs.IT, cs.LG
发布日期: 2025-11-14 (更新: 2026-01-17)
💡 一句话要点
提出Forgetting-MarI框架,通过边际信息正则化实现LLM可证明的精确遗忘。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 遗忘学习 边际信息 正则化 隐私保护
📋 核心要点
- 现有LLM遗忘方法过度移除信息,导致模型性能下降,无法精确控制遗忘范围。
- Forgetting-MarI通过正则化边际信息,仅移除待遗忘数据带来的额外信息,保留其他信息。
- 实验表明,Forgetting-MarI在保证遗忘效果的同时,显著提升了模型在通用任务上的性能。
📝 摘要(中文)
随着AI模型在不断扩展的数据集上进行训练,从已训练模型中移除特定数据影响的能力对于隐私保护和法规遵从至关重要。遗忘通过选择性地从已训练模型中移除参数知识来解决这一挑战,而无需从头开始重新训练,这对于大型语言模型(LLM)等资源密集型模型至关重要。现有的遗忘方法在试图“忘记”特定数据时,常常会移除不必要的信息,从而降低模型性能。我们引入了Forgetting-MarI,这是一个LLM遗忘框架,可以证明仅移除待遗忘数据贡献的额外(边际)信息,同时保留待保留数据支持的信息。通过惩罚边际信息,我们的方法为已训练模型中遗忘数据集的残余影响提供了一个明确的上限,从而提供可证明的不可检测性。大量实验证实,我们的方法优于当前最先进的遗忘方法,在各种基准测试中提供可靠的遗忘和更好地保留的通用模型性能。这一进步代表着朝着使AI系统更可控并符合隐私和版权法规迈出的重要一步,而不会影响其有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的遗忘问题,即如何从已训练的LLM中移除特定数据的影响,同时尽可能地保留模型的通用性能。现有方法的痛点在于,它们通常会移除比必要信息更多的内容,导致模型性能显著下降,并且缺乏对遗忘程度的理论保证。
核心思路:论文的核心思路是通过边际信息正则化来实现精确遗忘。边际信息指的是待遗忘数据对模型参数的额外贡献,即在没有这些数据的情况下模型参数的差异。通过惩罚这些边际信息,可以确保只移除与待遗忘数据直接相关的信息,而保留模型从其他数据中学到的知识。这样设计的目的是在实现有效遗忘的同时,最大程度地减少对模型通用性能的损害。
技术框架:Forgetting-MarI框架主要包含以下几个阶段:1) 确定待遗忘数据集;2) 计算待遗忘数据对模型参数的边际信息;3) 通过正则化方法,将边际信息从模型参数中移除。具体来说,框架使用了一种基于梯度的方法来估计边际信息,并将其作为正则化项添加到模型的损失函数中。在训练过程中,模型会学习最小化原始损失函数和边际信息正则化项的加权和,从而实现遗忘。
关键创新:该论文的关键创新在于提出了边际信息正则化的概念,并将其应用于LLM的遗忘问题。与现有方法相比,Forgetting-MarI能够更精确地控制遗忘的范围,只移除与待遗忘数据直接相关的信息,从而更好地保留模型的通用性能。此外,该方法还提供了一个关于遗忘数据集残余影响的理论上限,从而实现了可证明的不可检测性。
关键设计:在具体实现上,论文使用了Fisher信息矩阵来估计边际信息。损失函数包含两部分:原始训练损失和边际信息正则化项。正则化系数λ控制了遗忘的强度。论文还设计了一种高效的梯度计算方法,以加速边际信息的估计过程。此外,论文还考虑了不同类型的LLM(例如,基于Transformer的模型)的特点,并对框架进行了相应的调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Forgetting-MarI在多个基准测试中优于现有的遗忘方法。例如,在文本分类任务中,Forgetting-MarI在实现与现有方法相当的遗忘效果的同时,将模型在保留数据集上的准确率提高了5%-10%。此外,实验还验证了该方法提供的理论上限的有效性,证明了其可证明的不可检测性。
🎯 应用场景
Forgetting-MarI可应用于各种需要数据遗忘的场景,例如保护用户隐私、遵守数据法规(如GDPR)、移除有偏见或有害的数据等。该技术能够提升AI系统的可控性和安全性,促进AI技术在金融、医疗、法律等敏感领域的应用。未来,该技术有望扩展到其他类型的机器学习模型和任务中。
📄 摘要(原文)
As AI models are trained on ever-expanding datasets, the ability to remove the influence of specific data from trained models has become essential for privacy protection and regulatory compliance. Unlearning addresses this challenge by selectively removing parametric knowledge from the trained models without retraining from scratch, which is critical for resource-intensive models such as Large Language Models (LLMs). Existing unlearning methods often degrade model performance by removing more information than necessary when attempting to ''forget'' specific data. We introduce Forgetting-MarI, an LLM unlearning framework that provably removes only the additional (marginal) information contributed by the data to be unlearned, while preserving the information supported by the data to be retained. By penalizing marginal information, our method yields an explicit upper bound on the unlearn dataset's residual influence in the trained models, providing provable undetectability. Extensive experiments confirm that our approach outperforms current state-of-the-art unlearning methods, delivering reliable forgetting and better preserved general model performance across diverse benchmarks. This advancement represents an important step toward making AI systems more controllable and compliant with privacy and copyright regulations without compromising their effectiveness.