Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate

📄 arXiv: 2410.22086v3 📥 PDF

作者: Zhiqi Bu, Xiaomeng Jin, Bhanukiran Vinzamuri, Anil Ramakrishna, Kai-Wei Chang, Volkan Cevher, Mingyi Hong

分类: cs.LG, cs.CL

发布日期: 2024-10-29 (更新: 2025-05-06)

备注: Accepted to NAACL 2025 main conference


💡 一句话要点

提出NGDiff算法,通过归一化梯度差异和自适应学习率优化LLM的不可学习性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器不可学习性 多任务优化 归一化梯度差异 自适应学习率 大型语言模型

📋 核心要点

  1. 大型语言模型(LLMs)的机器不可学习性旨在移除模型中不需要的知识,现有方法在目标权衡和训练稳定性方面存在挑战。
  2. 论文将不可学习性视为多任务优化问题,通过归一化梯度差异(NGDiff)算法平衡遗忘和性能目标,并引入自适应学习率。
  3. 实验结果表明,NGDiff算法在TOFU和MUSE数据集上优于现有方法,并在训练过程中表现出更好的稳定性。

📝 摘要(中文)

本文从优化的角度研究了机器不可学习性,将其构建为一个正则化的多任务优化问题,其中一个任务优化遗忘目标,另一个任务优化模型性能。特别地,我们引入了一种归一化梯度差异(NGDiff)算法,使我们能够更好地控制目标之间的权衡,同时集成了一种新的自动学习率调度器。我们提供了理论分析,并通过实验证明了NGDiff在TOFU和MUSE数据集上优于最先进的不可学习方法,同时表现出稳定的训练。

🔬 方法详解

问题定义:机器不可学习性的目标是从预训练的LLM中移除特定知识,同时尽可能保留模型的通用能力。现有方法通常难以在遗忘目标和模型性能之间取得平衡,并且训练过程可能不稳定。

核心思路:论文的核心思路是将机器不可学习性问题建模为多任务优化问题,其中一个任务是遗忘特定知识(即最小化目标知识的影响),另一个任务是保持模型的整体性能。通过优化这两个任务的加权组合,可以在遗忘和性能之间找到一个合适的平衡点。

技术框架:NGDiff算法的核心框架如下:首先,定义遗忘目标和性能目标。然后,计算两个目标的梯度。关键在于,NGDiff不是直接使用梯度,而是计算归一化梯度差异。最后,使用自适应学习率调度器来更新模型参数。

关键创新:NGDiff算法的关键创新在于:1) 使用归一化梯度差异来更好地控制遗忘和性能目标之间的权衡。通过归一化梯度,可以避免梯度幅度差异过大导致的不平衡。2) 引入了一种新的自动学习率调度器,可以根据训练过程中的梯度变化动态调整学习率,从而提高训练的稳定性和收敛速度。

关键设计:归一化梯度差异的计算方式为:(g_forget - g_performance) / ||g_forget - g_performance||,其中g_forget是遗忘目标的梯度,g_performance是性能目标的梯度。自适应学习率调度器根据梯度范数的变化动态调整学习率。具体来说,如果梯度范数变化较大,则降低学习率;如果梯度范数变化较小,则增加学习率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NGDiff算法在TOFU和MUSE数据集上显著优于现有的不可学习方法。具体来说,NGDiff在遗忘目标上取得了更高的性能,同时保持了与现有方法相当甚至更好的模型性能。此外,NGDiff在训练过程中表现出更强的稳定性,避免了现有方法中常见的训练崩溃问题。

🎯 应用场景

该研究成果可应用于各种需要从大型语言模型中移除特定知识的场景,例如:删除模型中的有害信息、保护用户隐私、适应新的法规要求等。通过更有效地控制遗忘过程,可以确保模型在移除不需要的知识的同时,仍然保持其通用能力和性能。

📄 摘要(原文)

Machine unlearning has been used to remove unwanted knowledge acquired by large language models (LLMs). In this paper, we examine machine unlearning from an optimization perspective, framing it as a regularized multi-task optimization problem, where one task optimizes a forgetting objective and another optimizes the model performance. In particular, we introduce a normalized gradient difference (NGDiff) algorithm, enabling us to have better control over the trade-off between the objectives, while integrating a new, automatic learning rate scheduler. We provide a theoretical analysis and empirically demonstrate the superior performance of NGDiff among state-of-the-art unlearning methods on the TOFU and MUSE datasets while exhibiting stable training.