Recover-to-Forget: Gradient Reconstruction from LoRA for Efficient LLM Unlearning

作者: Yezi Liu, Hanning Chen, Wenjun Huang, Yang Ni, Mohsen Imani

分类: cs.LG, cs.CL

发布日期: 2025-12-08

💡 一句话要点

提出Recover-to-Forget框架，通过LoRA梯度重构实现高效LLM遗忘学习。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遗忘学习 大型语言模型 LoRA 梯度重构 模型更新

📋 核心要点

现有LLM遗忘学习方法依赖全模型微调或原始数据，面临可扩展性和数据访问限制。
R2F通过LoRA更新重构全模型梯度方向，训练梯度解码器近似梯度，实现高效遗忘。
R2F在代理模型上训练解码器，可迁移至更大或黑盒模型，实验验证了其有效性。

📝 摘要（中文）

大型语言模型（LLM）中的遗忘学习对于动态知识更新、数据删除权强制执行和模型行为纠正至关重要。然而，现有的遗忘学习方法通常需要完整模型微调或访问原始训练数据，这限制了它们的可扩展性和实用性。本文介绍了一种名为Recover-to-Forget（R2F）的新框架，用于在LLM中进行高效的遗忘学习，该框架基于从低秩LoRA适配器更新中重构完整模型梯度方向。R2F不通过完整模型执行反向传播，而是使用多个释义提示计算关于LoRA参数的梯度，并训练一个梯度解码器来近似相应的完整模型梯度。为了确保适用于更大或黑盒模型，解码器在代理模型上训练并转移到目标模型。我们提供了跨模型泛化的理论分析，并证明我们的方法实现了有效的遗忘学习，同时保留了一般的模型性能。实验结果表明，R2F为预训练LLM中的遗忘学习提供了一种可扩展且轻量级的替代方案，而无需完全重新训练或访问内部参数。

🔬 方法详解

问题定义：现有LLM遗忘学习方法主要痛点在于需要对整个模型进行微调，计算成本高昂，或者需要访问原始训练数据，这在数据隐私和模型所有权方面存在问题。因此，如何在不进行全模型微调且无需访问原始数据的情况下，高效地实现LLM的遗忘学习是一个关键挑战。

核心思路：R2F的核心思路是利用低秩适配器LoRA的参数更新来近似完整模型的梯度信息。通过训练一个梯度解码器，将LoRA参数的梯度映射到完整模型的梯度空间，从而避免直接对完整模型进行反向传播。这种方法显著降低了计算复杂度，并且不需要访问原始训练数据。

技术框架：R2F框架主要包含以下几个阶段：1) 梯度计算：使用多个释义提示计算关于LoRA参数的梯度。2) 梯度解码器训练：训练一个梯度解码器，将LoRA参数的梯度映射到完整模型的梯度。解码器在代理模型上进行训练。3) 梯度转移：将训练好的梯度解码器转移到目标模型上。4) 遗忘学习：使用重构的梯度信息更新目标模型的参数，实现遗忘学习。

关键创新：R2F最重要的技术创新点在于利用LoRA适配器进行梯度重构，从而避免了对完整模型进行微调。此外，通过在代理模型上训练梯度解码器，实现了跨模型的泛化能力，使得该方法可以应用于更大或黑盒模型。

关键设计：R2F的关键设计包括：1) 使用多个释义提示来增强梯度信息的丰富性。2) 梯度解码器的网络结构设计，需要能够有效地将LoRA参数的梯度映射到完整模型的梯度空间。3) 代理模型的选择，需要与目标模型具有一定的相似性，以保证梯度解码器的泛化能力。4) 损失函数的设计，需要能够有效地衡量重构梯度与真实梯度之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，R2F在实现有效遗忘学习的同时，能够保持模型的一般性能。具体来说，R2F在遗忘特定知识方面取得了显著效果，同时在其他任务上的性能下降很小。此外，R2F的计算效率远高于全模型微调方法，为LLM的遗忘学习提供了一种可行的解决方案。

🎯 应用场景

R2F框架可应用于各种需要动态知识更新、数据删除权执行和模型行为纠正的LLM场景。例如，在聊天机器人中，可以用于删除不当言论或过时信息；在知识库问答系统中，可以用于更新知识库内容。该方法还可用于保护用户隐私，确保用户有权删除个人数据。

📄 摘要（原文）

Unlearning in large foundation models (e.g., LLMs) is essential for enabling dynamic knowledge updates, enforcing data deletion rights, and correcting model behavior. However, existing unlearning methods often require full-model fine-tuning or access to the original training data, which limits their scalability and practicality. In this work, we introduce Recover-to-Forget (R2F), a novel framework for efficient unlearning in LLMs based on reconstructing full-model gradient directions from low-rank LoRA adapter updates. Rather than performing backpropagation through the full model, we compute gradients with respect to LoRA parameters using multiple paraphrased prompts and train a gradient decoder to approximate the corresponding full-model gradients. To ensure applicability to larger or black-box models, the decoder is trained on a proxy model and transferred to target models. We provide a theoretical analysis of cross-model generalization and demonstrate that our method achieves effective unlearning while preserving general model performance. Experimental results demonstrate that R2F offers a scalable and lightweight alternative for unlearning in pretrained LLMs without requiring full retraining or access to internal parameters.

Recover-to-Forget: Gradient Reconstruction from LoRA for Efficient LLM Unlearning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理