SHRED: Retain-Set-Free Unlearning via Self-Distillation with Logit Demotion

📄 arXiv: 2605.07482v1 📥 PDF

作者: Zizhao Hu, Ameya Godbole, Johnny Tian-Zheng Wei, Mohammad Rostami, Jesse Thomason, Robin Jia

分类: cs.LG, cs.AI

发布日期: 2026-05-08


💡 一句话要点

SHRED:通过Logit降维的自蒸馏实现免retain-set的大语言模型知识遗忘

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 大型语言模型 自蒸馏 免retain-set Logit降维

📋 核心要点

  1. 现有大语言模型遗忘方法依赖retain set,增加了数据依赖,影响部署。
  2. SHRED通过分析forget set中token的信息量,仅针对高信息量token进行遗忘。
  3. 实验表明,SHRED在遗忘效果和模型效用间取得了更好的平衡,且对攻击具有鲁棒性。

📝 摘要(中文)

针对大型语言模型(LLM)的机器遗忘,旨在选择性地移除模型记忆的内容,如隐私数据、版权文本或有害知识,而无需耗费资源的完全重新训练。现有方法大多需要一个精心设计的retain set来防止模型通用能力的灾难性退化,从而引入了额外的数据依赖,这使得部署变得复杂。我们提出了SHRED(通过高惊奇度熵降维的自蒸馏),一种免retain-set的遗忘方法,它基于一个关键观察:forget set实例中并非所有token都携带等量的记忆信息。高信息量token集中了模型记忆的知识,而低信息量token反映了通用的语言能力。SHRED分两个阶段运行。(1)选择:我们对forget set实例执行前向传播,收集每个token的自回归概率,并选择概率最低(香农信息量最高)的位置作为遗忘位置;其余位置保留为良性锚点。(2)训练:我们构建修改后的KL目标,降低遗忘位置上记忆token的logit,同时保持良性位置上的原始分布。然后通过单个top KL自蒸馏目标训练模型,该目标同时驱动遗忘和效用保持。我们在四个标准遗忘基准上评估SHRED,并证明它在遗忘效果和模型效用之间建立了一种新的帕累托最优权衡,优于依赖retain-set的方法。我们的分析表明,SHRED对重新学习攻击和成员推理攻击具有鲁棒性,并且即使在多次连续遗忘运行后也能保持稳定的效用。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的知识遗忘问题,即选择性地删除模型中记忆的特定信息,例如隐私数据或有害知识,同时尽可能地保留模型的通用语言能力。现有的知识遗忘方法通常依赖于额外的retain set,用于在遗忘过程中维持模型的性能,这增加了数据依赖性和部署复杂性。

核心思路:SHRED的核心思路是并非forget set中的所有token都包含同等重要的需要被遗忘的信息。高信息量的token(即模型预测概率低的token)更可能包含模型记忆的特定知识,而低信息量的token则更多地反映了通用的语言能力。因此,SHRED只针对高信息量的token进行遗忘,同时保留低信息量的token作为“良性锚点”,从而在遗忘特定知识的同时,更大程度地保留模型的通用能力。

技术框架:SHRED方法主要包含两个阶段:选择阶段和训练阶段。在选择阶段,模型对forget set中的每个实例进行前向传播,并计算每个token的自回归概率。然后,选择概率最低(香农信息量最高)的token作为需要遗忘的位置,而其余token则被保留。在训练阶段,构建修改后的KL散度目标,降低遗忘位置上需要遗忘的token的logit值,同时保持其余位置的原始分布。最后,通过自蒸馏的方式训练模型,利用原始模型的输出来指导新模型的学习,从而在遗忘特定知识的同时,保持模型的通用能力。

关键创新:SHRED的关键创新在于提出了一种免retain set的知识遗忘方法,通过分析forget set中每个token的信息量,实现了更精确的遗忘。它避免了对额外数据的依赖,简化了部署流程,并且在遗忘效果和模型效用之间取得了更好的平衡。与现有方法相比,SHRED能够更有效地遗忘特定知识,同时更大程度地保留模型的通用能力。

关键设计:SHRED的关键设计包括以下几个方面:1) 使用token的自回归概率作为信息量的度量,选择概率最低的token作为遗忘位置;2) 构建修改后的KL散度目标,针对遗忘位置降低logit值,并保留其余位置的原始分布;3) 使用自蒸馏的方式训练模型,利用原始模型的输出来指导新模型的学习;4) 通过调整logit降维的程度来控制遗忘的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SHRED在四个标准遗忘基准上取得了显著的性能提升,在遗忘效果和模型效用之间实现了新的帕累托最优权衡,超越了依赖retain set的方法。实验结果表明,SHRED对重新学习攻击和成员推理攻击具有鲁棒性,并且即使在多次连续遗忘运行后也能保持稳定的模型效用。具体数据由于原文摘要未提供,此处省略。

🎯 应用场景

SHRED方法可应用于各种需要对大型语言模型进行知识遗忘的场景,例如删除包含个人隐私的数据、移除版权内容或过滤有害信息。该方法无需retain set,降低了数据依赖性,简化了部署,有助于构建更安全、合规的大语言模型,并促进其在各个领域的应用,如医疗、金融等。

📄 摘要(原文)

Machine unlearning for large language models (LLMs) aims to selectively remove memorized content such as private data, copyrighted text, or hazardous knowledge, without costly full retraining. Most existing methods require a retain set of curated examples to prevent catastrophic degradation of general model utility, creating an extra data dependency that complicates deployment. We propose SHRED (Self-distillation via High-surprisal-only Retain-set-free Entropy Demotion), a retain-set-free unlearning method built on a key insight: not all tokens within a forget set instance carry memorized information equally. High-information tokens concentrate the model's memorized knowledge, while low-information tokens reflect general language competence. SHRED operates in two stages. (1) Selection: We perform a forward pass on a forget set instance, collect per-token autoregressive probabilities, and select the bottom (lowest probability, highest Shannon information) as forget positions; the remaining positions are retained as benign anchors. (2) Training: We construct modified KL targets that demote the memorized token's logit at forget positions while preserving the original distribution at benign positions. The model is then trained via a single top KL self-distillation objective that simultaneously drives forgetting and utility preservation. We evaluate SHRED across four standard unlearning benchmarks and demonstrate that it establishes a new Pareto-optimal trade-off between forget efficacy and model utility, outperforming retain-set-dependent methods. Our analysis shows that SHRED is robust against relearning attacks and membership-inference attacks, and it maintains stable utility even after many sequential unlearning runs.