Modeling LLM Unlearning as an Asymmetric Two-Task Learning Problem

📄 arXiv: 2604.14808v1 📥 PDF

作者: Zeguan Xiao, Siqing Li, Yong Wang, Xuetao Wei, Jian Yang, Yun Chen, Guanhua Chen

分类: cs.CL

发布日期: 2026-04-16

备注: ACL 2026


💡 一句话要点

将LLM非学习建模为非对称双任务学习问题,提升知识遗忘与能力保持的平衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 非学习 知识遗忘 梯度合成 双任务学习

📋 核心要点

  1. 现有LLM非学习方法难以在遗忘目标知识的同时,有效保留模型的通用能力,面临严重的权衡问题。
  2. 论文将非学习问题视为非对称双任务,核心思想是优先保证模型对重要知识的保留,辅助实现目标知识的遗忘。
  3. 实验表明,提出的SAGO方法在多个基准测试中,显著提升了模型在遗忘目标知识的同时,对通用能力的保留程度。

📝 摘要(中文)

本文将大型语言模型(LLM)的非学习(unlearning)问题重新定义为一个非对称的双任务问题:保留(retention)是主要目标,而遗忘(forgetting)是辅助目标。基于此,我们提出了一个保留优先的梯度合成框架,该框架将任务特定的梯度提取与冲突感知的组合解耦。我们实例化了这个框架,采用了已有的PCGrad方法来解决梯度冲突,并引入了一种新的保留优先的梯度合成方法SAGO。理论上,这两种变体都确保了与保留梯度的非负余弦相似性,而SAGO通过建设性的符号约束合成实现了更严格的对齐。在WMDP Bio/Cyber和RWKU基准测试中,SAGO始终推动Pareto前沿:例如,在WMDP Bio(SimNPO+GD)上,目标模型MMLU性能的恢复从44.6%(naive)提高到94.0%(+PCGrad),并进一步提高到96.0%(+SAGO),同时保持了相当的遗忘强度。我们的结果表明,重塑梯度几何形状,而不是重新平衡损失,是缓解非学习-保留权衡的关键。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的非学习问题,即在删除特定目标知识的同时,尽可能保留模型的通用能力。现有方法通常难以平衡遗忘和保留,导致在遗忘目标知识时,模型性能显著下降。这种权衡是现有方法的主要痛点。

核心思路:论文的核心思路是将LLM的非学习过程建模为一个非对称的双任务学习问题。在这个框架下,保留模型对通用知识的掌握被视为主要任务,而遗忘特定的目标知识则被视为辅助任务。这种设计思路的目的是优先保证模型的核心能力不受影响,然后在此基础上进行知识遗忘。

技术框架:论文提出的保留优先的梯度合成框架包含两个主要阶段:任务特定梯度提取和冲突感知的梯度组合。首先,针对保留任务和遗忘任务分别提取梯度。然后,利用冲突感知的梯度组合方法,将这两个梯度进行合成,得到最终的更新梯度。该框架的关键在于如何有效地组合这两个梯度,以实现保留优先的目标。

关键创新:论文的关键创新在于提出了一种新的保留优先的梯度合成方法SAGO。SAGO的核心思想是通过符号约束合成,确保合成后的梯度与保留梯度的对齐程度更高。与现有的梯度冲突解决策略(如PCGrad)相比,SAGO能够实现更严格的梯度对齐,从而更好地平衡遗忘和保留。

关键设计:SAGO方法通过引入符号约束,确保合成后的梯度与保留梯度的余弦相似度为非负,并且尽可能地接近1。具体来说,SAGO通过调整遗忘梯度的方向和大小,使其与保留梯度更加一致。此外,论文还对PCGrad方法进行了适配,使其能够更好地应用于LLM的非学习任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAGO方法在WMDP Bio/Cyber和RWKU基准测试中,显著提升了LLM非学习的性能。例如,在WMDP Bio数据集上,使用SimNPO+GD作为基线,模型MMLU性能的恢复从44.6%(naive)提高到94.0%(+PCGrad),并进一步提高到96.0%(+SAGO),同时保持了相当的遗忘强度。这表明SAGO方法能够有效地平衡遗忘和保留,优于现有的方法。

🎯 应用场景

该研究成果可应用于需要保护用户隐私或删除不当信息的大型语言模型。例如,在用户要求删除其个人数据后,该方法可以帮助模型安全地遗忘相关信息,同时保持其通用语言能力。此外,该方法还可以用于防止模型生成有害或不准确的内容,提高模型的可靠性和安全性。

📄 摘要(原文)

Machine unlearning for large language models (LLMs) aims to remove targeted knowledge while preserving general capability. In this paper, we recast LLM unlearning as an asymmetric two-task problem: retention is the primary objective and forgetting is an auxiliary. From this perspective, we propose a retention-prioritized gradient synthesis framework that decouples task-specific gradient extraction from conflict-aware combination. Instantiating the framework, we adapt established PCGrad to resolve gradient conflicts, and introduce SAGO, a novel retention-prioritized gradient synthesis method. Theoretically, both variants ensure non-negative cosine similarity with the retain gradient, while SAGO achieves strictly tighter alignment through constructive sign-constrained synthesis. Empirically, on WMDP Bio/Cyber and RWKU benchmarks, SAGO consistently pushes the Pareto frontier: e.g., on WMDP Bio (SimNPO+GD), recovery of target model MMLU performance progresses from 44.6% (naive) to 94.0% (+PCGrad) and further to 96.0% (+SAGO), while maintaining comparable forgetting strength. Our results show that re-shaping gradient geometry, rather than re-balancing losses, is the key to mitigating unlearning-retention trade-offs.