Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs
作者: Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee
分类: cs.LG, cs.CL
发布日期: 2024-08-13 (更新: 2025-04-24)
备注: ICLR 2025 camera-ready version
🔗 代码/项目: GITHUB
💡 一句话要点
提出LoKU框架,实现LLM的鲁棒、高效且参数高效的知识遗忘
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识遗忘 大型语言模型 低秩适应 反向合页损失 数据自适应 隐私保护 模型安全
📋 核心要点
- 现有基于梯度上升的知识遗忘方法存在优化不稳定和灾难性遗忘问题,且与低秩适应结合时,计算成本和性能权衡不佳。
- 提出LoKU框架,包含反向合页损失和数据自适应LoRA适配器初始化,以实现鲁棒和高效的知识遗忘。
- 实验表明,LoKU在删除敏感信息的同时,能以最小的影响保持LLM的推理和生成能力,优于现有方法。
📝 摘要(中文)
大型语言模型(LLM)通过在海量文本语料库上的预训练,展现了强大的推理和记忆能力。然而,这也带来了隐私和版权侵犯的风险,突显了对高效机器遗忘方法的需求,即在不从头开始重新训练的情况下删除敏感数据。梯度上升(GA)通常用于通过降低生成不需要内容的可能性来实现遗忘,但它会导致不稳定的优化和灾难性的遗忘。研究发现,将GA与低秩适应相结合会导致计算成本和生成性能之间的不良权衡。为了解决这些挑战,我们提出了一种新颖的框架——低秩知识遗忘(LoKU),它能够实现LLM的鲁棒和高效遗忘。首先,我们引入了反向合页损失,通过提高下一个最可能token的概率来抑制不需要的token,同时保持流畅性。其次,我们开发了一种数据自适应的LoRA适配器初始化方法,通过相对Fisher信息加权的低秩近似,从而将更新集中在对删除目标知识至关重要的参数上。在GPT-Neo模型上使用训练数据提取挑战数据集以及在Phi-1.5B和Llama2-7B模型上使用TOFU基准的实验表明,我们的方法有效地删除了敏感信息,同时以最小的影响保持了推理和生成能力。我们的实现可在https://github.com/csm9493/efficient_llm_unlearning 找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中存在的知识遗忘问题,即如何有效地从模型中删除特定的敏感或有害信息,而无需从头开始重新训练整个模型。现有的基于梯度上升(GA)的方法存在优化不稳定、容易导致灾难性遗忘以及与低秩适应(LoRA)结合时计算成本高昂等问题。
核心思路:论文的核心思路是通过结合反向合页损失和数据自适应的LoRA适配器初始化,来更精确、更稳定地删除目标知识,同时尽可能地保留模型原有的能力。反向合页损失旨在抑制不希望生成的token,同时鼓励生成更合理的替代token,从而保持生成文本的流畅性。数据自适应的LoRA初始化则旨在将更新集中在对遗忘目标知识至关重要的参数上,从而提高遗忘效率。
技术框架:LoKU框架主要包含两个关键模块:1) 反向合页损失(Inverted Hinge Loss):用于指导模型抑制目标token的生成,并鼓励生成更合理的替代token。2) 数据自适应LoRA适配器初始化:利用相对Fisher信息加权的低秩近似来初始化LoRA适配器,从而将更新集中在对遗忘目标知识至关重要的参数上。整个流程包括:首先,使用数据自适应方法初始化LoRA适配器;然后,使用反向合页损失对模型进行微调,以删除目标知识。
关键创新:论文的关键创新在于:1) 提出了反向合页损失,它能够更有效地抑制不希望生成的token,同时保持生成文本的流畅性。2) 提出了数据自适应的LoRA适配器初始化方法,该方法能够将更新集中在对遗忘目标知识至关重要的参数上,从而提高遗忘效率。3) 将上述两种方法结合,形成了一个鲁棒、高效且参数高效的知识遗忘框架。
关键设计:反向合页损失的关键设计在于,它不仅惩罚目标token的生成,还奖励下一个最可能的token的生成,从而保持生成文本的流畅性。数据自适应LoRA适配器初始化的关键设计在于,它利用相对Fisher信息来衡量每个参数对遗忘目标知识的重要性,并将更新集中在最重要的参数上。具体而言,使用低秩近似来减少参数量,并使用Fisher信息来加权,从而实现数据自适应的初始化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LoKU在GPT-Neo模型上使用训练数据提取挑战数据集以及在Phi-1.5B和Llama2-7B模型上使用TOFU基准时,能够有效地删除敏感信息,同时以最小的影响保持模型的推理和生成能力。与现有方法相比,LoKU在遗忘效果和性能保持方面取得了更好的平衡。
🎯 应用场景
该研究成果可应用于各种需要保护隐私和版权的场景,例如:从大型语言模型中删除个人身份信息、有害言论或受版权保护的内容。这有助于提高LLM的安全性、合规性和社会责任感,并促进LLM在更广泛领域的应用。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, this poses risk of privacy and copyright violations, highlighting the need for efficient machine unlearning methods that remove sensitive data without retraining from scratch. While Gradient Ascent (GA) is commonly used to unlearn by reducing the likelihood of generating unwanted content, it leads to unstable optimization and catastrophic forgetting of retrained knowledge. We find that combining GA with low-rank adaptation results in poor trade-offs between computational cost and generative performance. To address these challenges, we propose Low-rank Knowledge Unlearning (LoKU), a novel framework that enables robust and efficient unlearning for LLMs. First, we introduce Inverted Hinge Loss, which suppresses unwanted tokens while maintaining fluency by boosting the probability of the next most likely token. Second, we develop a data-adaptive initialization for LoRA adapters via low-rank approximation weighted with relative Fisher information, thereby focusing updates on parameters critical for removing targeted knowledge. Experiments on the Training Data Extraction Challenge dataset using GPT-Neo models as well as on the TOFU benchmark with Phi-1.5B and Llama2-7B models demonstrate that our approach effectively removes sensitive information while maintaining reasoning and generative capabilities with minimal impact. Our implementation can be found in https://github.com/csm9493/efficient-llm-unlearning.