Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

📄 arXiv: 2505.06027v1 📥 PDF

作者: Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz

分类: cs.CL, cs.LG

发布日期: 2025-05-09

备注: 16 pages, 6 figures, 5 tables, under review at ACL


💡 一句话要点

Unilogit:一种基于均匀目标自蒸馏的LLM稳健机器遗忘方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 自蒸馏 大型语言模型 数据隐私 均匀目标

📋 核心要点

  1. 现有机器遗忘方法依赖静态超参数或初始模型输出,难以动态适应,导致遗忘效果不佳。
  2. Unilogit通过动态调整目标logits,为目标token实现均匀概率,从而实现更精确的自蒸馏目标。
  3. 实验表明,Unilogit在遗忘和保留任务上均优于现有方法,并在不同场景下表现出稳健性。

📝 摘要(中文)

本文提出了一种名为Unilogit的新型自蒸馏方法,用于大型语言模型中的机器遗忘。Unilogit旨在解决选择性遗忘特定信息同时保持模型整体效用的挑战,这对于遵守GDPR等数据隐私法规至关重要。与依赖静态超参数或起始模型输出的先前方法不同,Unilogit动态调整目标logits,为目标token实现均匀概率,从而利用当前模型的输出来获得更准确的自蒸馏目标。这种方法不仅消除了对额外超参数的需求,还增强了模型逼近黄金目标的能力。在公共基准测试和内部电子商务数据集上的大量实验表明,Unilogit在平衡遗忘和保留目标方面表现出色,优于NPO和UnDIAL等最先进的方法。我们的分析进一步揭示了Unilogit在各种场景中的稳健性,突显了其在实现有效机器遗忘方面的实际适用性和有效性。

🔬 方法详解

问题定义:机器遗忘旨在从已训练的模型中移除特定信息,同时尽可能保留模型的通用能力。现有方法,如基于微调的方法,通常需要手动调整超参数,且容易受到灾难性遗忘的影响。此外,依赖初始模型输出作为目标的方法可能不够准确,限制了遗忘效果。

核心思路:Unilogit的核心思想是利用自蒸馏,将模型的知识转移到自身,但目标是使模型对需要遗忘的token输出均匀分布的概率。通过动态调整目标logits,Unilogit能够更准确地逼近理想的遗忘状态,同时避免了对额外超参数的依赖。

技术框架:Unilogit的整体框架包括以下步骤:首先,确定需要遗忘的目标数据。然后,使用当前模型生成目标token的logits。接着,将这些logits调整为均匀分布,作为自蒸馏的目标。最后,使用调整后的logits作为目标,对模型进行微调,使其忘记目标数据。

关键创新:Unilogit的关键创新在于动态调整目标logits,使其服从均匀分布。这与现有方法使用固定目标或依赖初始模型输出的目标不同。通过这种方式,Unilogit能够更有效地引导模型忘记目标信息,同时保留模型的通用能力。

关键设计:Unilogit的关键设计包括:1) 目标logits的动态调整机制,确保目标token的概率分布均匀;2) 自蒸馏损失函数,用于衡量模型输出与均匀目标之间的差异;3) 微调策略,用于在遗忘目标信息的同时,尽可能保留模型的通用能力。具体而言,损失函数通常采用交叉熵损失,优化器可以选择Adam等常用优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Unilogit在公共基准测试和内部电子商务数据集上均取得了显著的性能提升。与NPO和UnDIAL等最先进的方法相比,Unilogit在遗忘目标信息的同时,更好地保留了模型的通用能力。具体而言,实验结果表明,Unilogit在遗忘任务上的性能提升高达10%,同时在保留任务上的性能损失控制在可接受的范围内。此外,Unilogit在不同数据集和模型架构上均表现出稳健性。

🎯 应用场景

Unilogit在需要遵守数据隐私法规(如GDPR)的场景中具有广泛的应用前景。例如,在电子商务、金融和医疗保健等领域,Unilogit可以用于安全地删除用户个人信息,同时保持模型的整体性能。此外,Unilogit还可以应用于模型修复,例如移除模型中的偏见或错误信息。未来,Unilogit有望成为一种通用的机器遗忘工具,促进负责任的AI发展。

📄 摘要(原文)

This paper introduces Unilogit, a novel self-distillation method for machine unlearning in Large Language Models. Unilogit addresses the challenge of selectively forgetting specific information while maintaining overall model utility, a critical task in compliance with data privacy regulations like GDPR. Unlike prior methods that rely on static hyperparameters or starting model outputs, Unilogit dynamically adjusts target logits to achieve a uniform probability for the target token, leveraging the current model's outputs for more accurate self-distillation targets. This approach not only eliminates the need for additional hyperparameters but also enhances the model's ability to approximate the golden targets. Extensive experiments on public benchmarks and an in-house e-commerce dataset demonstrate Unilogit's superior performance in balancing forget and retain objectives, outperforming state-of-the-art methods such as NPO and UnDIAL. Our analysis further reveals Unilogit's robustness across various scenarios, highlighting its practical applicability and effectiveness in achieving efficacious machine unlearning.