Recover-to-Forget: Gradient Reconstruction from LoRA for Efficient LLM Unlearning

📄 arXiv: 2512.07374v1 📥 PDF

作者: Yezi Liu, Hanning Chen, Wenjun Huang, Yang Ni, Mohsen Imani

分类: cs.LG, cs.CL

发布日期: 2025-12-08


💡 一句话要点

提出Recover-to-Forget框架,通过LoRA梯度重构实现高效LLM遗忘学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遗忘学习 大型语言模型 LoRA 梯度重构 模型更新

📋 核心要点

  1. 现有LLM遗忘学习方法依赖全模型微调或原始数据,面临可扩展性和数据访问限制。
  2. R2F通过LoRA更新重构全模型梯度方向,训练梯度解码器近似梯度,实现高效遗忘。
  3. R2F在代理模型上训练解码器,可迁移至更大或黑盒模型,实验验证了其有效性。

📝 摘要(中文)

大型语言模型(LLM)中的遗忘学习对于动态知识更新、数据删除权强制执行和模型行为纠正至关重要。然而,现有的遗忘学习方法通常需要完整模型微调或访问原始训练数据,这限制了它们的可扩展性和实用性。本文介绍了一种名为Recover-to-Forget(R2F)的新框架,用于在LLM中进行高效的遗忘学习,该框架基于从低秩LoRA适配器更新中重构完整模型梯度方向。R2F不通过完整模型执行反向传播,而是使用多个释义提示计算关于LoRA参数的梯度,并训练一个梯度解码器来近似相应的完整模型梯度。为了确保适用于更大或黑盒模型,解码器在代理模型上训练并转移到目标模型。我们提供了跨模型泛化的理论分析,并证明我们的方法实现了有效的遗忘学习,同时保留了一般的模型性能。实验结果表明,R2F为预训练LLM中的遗忘学习提供了一种可扩展且轻量级的替代方案,而无需完全重新训练或访问内部参数。

🔬 方法详解

问题定义:现有LLM遗忘学习方法主要痛点在于需要对整个模型进行微调,计算成本高昂,或者需要访问原始训练数据,这在数据隐私和模型所有权方面存在问题。因此,如何在不进行全模型微调且无需访问原始数据的情况下,高效地实现LLM的遗忘学习是一个关键挑战。

核心思路:R2F的核心思路是利用低秩适配器LoRA的参数更新来近似完整模型的梯度信息。通过训练一个梯度解码器,将LoRA参数的梯度映射到完整模型的梯度空间,从而避免直接对完整模型进行反向传播。这种方法显著降低了计算复杂度,并且不需要访问原始训练数据。

技术框架:R2F框架主要包含以下几个阶段:1) 梯度计算:使用多个释义提示计算关于LoRA参数的梯度。2) 梯度解码器训练:训练一个梯度解码器,将LoRA参数的梯度映射到完整模型的梯度。解码器在代理模型上进行训练。3) 梯度转移:将训练好的梯度解码器转移到目标模型上。4) 遗忘学习:使用重构的梯度信息更新目标模型的参数,实现遗忘学习。

关键创新:R2F最重要的技术创新点在于利用LoRA适配器进行梯度重构,从而避免了对完整模型进行微调。此外,通过在代理模型上训练梯度解码器,实现了跨模型的泛化能力,使得该方法可以应用于更大或黑盒模型。

关键设计:R2F的关键设计包括:1) 使用多个释义提示来增强梯度信息的丰富性。2) 梯度解码器的网络结构设计,需要能够有效地将LoRA参数的梯度映射到完整模型的梯度空间。3) 代理模型的选择,需要与目标模型具有一定的相似性,以保证梯度解码器的泛化能力。4) 损失函数的设计,需要能够有效地衡量重构梯度与真实梯度之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R2F在实现有效遗忘学习的同时,能够保持模型的一般性能。具体来说,R2F在遗忘特定知识方面取得了显著效果,同时在其他任务上的性能下降很小。此外,R2F的计算效率远高于全模型微调方法,为LLM的遗忘学习提供了一种可行的解决方案。

🎯 应用场景

R2F框架可应用于各种需要动态知识更新、数据删除权执行和模型行为纠正的LLM场景。例如,在聊天机器人中,可以用于删除不当言论或过时信息;在知识库问答系统中,可以用于更新知识库内容。该方法还可用于保护用户隐私,确保用户有权删除个人数据。

📄 摘要(原文)

Unlearning in large foundation models (e.g., LLMs) is essential for enabling dynamic knowledge updates, enforcing data deletion rights, and correcting model behavior. However, existing unlearning methods often require full-model fine-tuning or access to the original training data, which limits their scalability and practicality. In this work, we introduce Recover-to-Forget (R2F), a novel framework for efficient unlearning in LLMs based on reconstructing full-model gradient directions from low-rank LoRA adapter updates. Rather than performing backpropagation through the full model, we compute gradients with respect to LoRA parameters using multiple paraphrased prompts and train a gradient decoder to approximate the corresponding full-model gradients. To ensure applicability to larger or black-box models, the decoder is trained on a proxy model and transferred to target models. We provide a theoretical analysis of cross-model generalization and demonstrate that our method achieves effective unlearning while preserving general model performance. Experimental results demonstrate that R2F offers a scalable and lightweight alternative for unlearning in pretrained LLMs without requiring full retraining or access to internal parameters.