Per-parameter Task Arithmetic for Unlearning in Large Language Models

📄 arXiv: 2601.22030v1 📥 PDF

作者: Chengyi Cai, Zesheng Ye, Jiangchao Yao, Jianzhong Qi, Bo Han, Xiaolu Zhang, Feng Liu, Jun Zhou

分类: cs.LG

发布日期: 2026-01-29


💡 一句话要点

提出PerTA,通过参数级任务算术提升大语言模型的可控遗忘能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 遗忘学习 任务算术 参数级调整 隐私保护

📋 核心要点

  1. 现有任务算术方法在LLM遗忘中存在过度遗忘问题,因为其忽略了不同参数对遗忘和保留的不同重要性。
  2. 论文提出PerTA方法,通过参数级别的任务向量缩放,区分参数对遗忘和保留的贡献,从而更精细地控制遗忘过程。
  3. 实验结果表明,PerTA在遗忘效果和模型效用方面均优于标准任务向量方法,甚至在某些情况下超越了基于训练的遗忘方法。

📝 摘要(中文)

在大语言模型(LLM)的遗忘学习中,需要移除私有信息。任务算术通过减去特定的任务向量(TV)来实现遗忘,该任务向量定义为隐私信息调优模型与原始模型之间的参数差异。虽然这种方法很有效率,但它可能会干扰对保留其他信息至关重要的参数,从而导致过度遗忘。受每个参数对于遗忘与保留表现出不同重要性的观察的启发,我们提出了一种参数级任务算术(PerTA)机制来重新缩放TV,从而允许参数级的调整。这些权重量化了每个参数对于遗忘与保留的相对重要性,通过梯度(即PerTA-grad)或对角Fisher信息近似(即PerTA-fisher)来估计。此外,我们讨论了PerTA的有效性,将其扩展到更一般的形式,并提供了进一步的分析。大量的实验表明,PerTA始终优于标准TV,并且在许多情况下,在遗忘有效性和整体模型效用方面都超过了广泛使用的基于训练的遗忘学习方法。通过保留任务算术的效率,同时减轻过度遗忘,PerTA为LLM遗忘学习提供了一个有原则且实用的框架。

🔬 方法详解

问题定义:大语言模型遗忘学习旨在移除模型中存储的特定隐私信息,同时尽可能保留模型的通用能力。现有任务算术方法通过从模型参数中减去一个任务向量(TV)来实现遗忘,该任务向量代表了模型在学习到隐私信息后的参数变化。然而,这种方法的痛点在于,它对所有参数一视同仁,忽略了不同参数对于遗忘目标信息和保留其他有用信息的重要性差异,容易导致过度遗忘,损害模型的整体性能。

核心思路:论文的核心思路是为每个参数分配一个权重,用于调整任务向量(TV)在该参数上的作用强度。这个权重反映了该参数对于遗忘目标信息和保留其他信息的相对重要性。通过这种参数级别的精细化调整,可以更有效地移除隐私信息,同时最大限度地减少对模型通用能力的损害。

技术框架:PerTA方法的核心在于计算每个参数的权重,并将其应用于任务向量。整体流程如下:1. 计算任务向量(TV),即隐私信息调优模型与原始模型之间的参数差异。2. 使用梯度(PerTA-grad)或对角Fisher信息近似(PerTA-fisher)估计每个参数的权重,该权重反映了该参数对于遗忘目标信息和保留其他信息的相对重要性。3. 将任务向量与参数权重相乘,得到调整后的任务向量。4. 从原始模型参数中减去调整后的任务向量,得到遗忘后的模型。

关键创新:PerTA最重要的技术创新点在于引入了参数级别的任务向量缩放机制,允许对每个参数进行独立调整。这与传统的任务算术方法不同,后者对所有参数应用相同的任务向量。PerTA通过区分参数的重要性,实现了更精细化的遗忘控制,从而在遗忘效果和模型效用之间取得了更好的平衡。

关键设计:PerTA的关键设计包括:1. 使用梯度(PerTA-grad)或对角Fisher信息近似(PerTA-fisher)来估计参数权重。PerTA-grad通过计算目标遗忘任务的梯度来估计参数的重要性。PerTA-fisher利用Fisher信息矩阵的对角线元素来近似参数的重要性。2. 权重的归一化处理,确保缩放后的任务向量不会过度影响模型参数。3. 可以将PerTA扩展到更一般的形式,例如使用不同的权重计算方法或将权重应用于任务向量的不同部分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PerTA在多个数据集和模型上均优于标准任务向量方法。例如,在某些任务上,PerTA在遗忘效果上取得了显著提升,同时保持了较高的模型准确率。此外,PerTA在某些情况下甚至超越了基于训练的遗忘方法,证明了其在效率和效果上的优势。

🎯 应用场景

PerTA方法可应用于各种需要进行遗忘学习的大语言模型场景,例如:移除模型中包含的个人隐私信息、删除模型中存在的偏见或有害内容、以及更新模型知识库等。该方法能够提高模型的可控性和安全性,并促进LLM在更广泛的应用场景中的部署。

📄 摘要(原文)

In large language model (LLM) unlearning, private information is required to be removed. Task arithmetic unlearns by subtracting a specific task vector (TV)--defined as the parameter difference between a privacy-information-tuned model and the original model. While efficient, it can cause over-forgetting by disrupting parameters essential for retaining other information. Motivated by the observation that each parameter exhibits different importance for forgetting versus retention, we propose a per-parameter task arithmetic (PerTA) mechanism to rescale the TV, allowing per-parameter adjustment. These weights quantify the relative importance of each parameter for forgetting versus retention, estimated via gradients (i.e., PerTA-grad) or the diagonal Fisher information approximation (i.e., PerTA-fisher). Moreover, we discuss the effectiveness of PerTA, extend it to a more general form, and provide further analysis. Extensive experiments demonstrate that PerTA consistently improves upon standard TV, and in many cases surpasses widely used training-based unlearning methods in both forgetting effectiveness and overall model utility. By retaining the efficiency of task arithmetic while mitigating over-forgetting, PerTA offers a principled and practical framework for LLM unlearning.