Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models
作者: Hongbang Yuan, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
分类: cs.CL, cs.AI, cs.CR, cs.LG
发布日期: 2024-08-20
备注: 13 pages
💡 一句话要点
提出对抗性框架,评估并提升大语言模型知识遗忘的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识遗忘 大语言模型 对抗攻击 鲁棒性 对抗训练 动态遗忘攻击 潜在对抗遗忘
📋 核心要点
- 现有LLM知识遗忘方法易受对抗攻击,遗忘知识容易复现,缺乏鲁棒性评估。
- 提出潜在对抗遗忘(LAU)框架,通过最小-最大优化,在潜在空间进行对抗攻击和防御,提升遗忘鲁棒性。
- 实验表明,LAU框架下的AdvGA和AdvNPO方法,显著提升遗忘效果,同时对相邻知识和模型通用能力影响较小。
📝 摘要(中文)
大语言模型(LLM)在诸多领域取得了成功,但训练语料库中存在的问题内容仍然困扰着它们。LLM知识遗忘旨在减少这些问题内容的影响,避免不良行为。然而,现有的遗忘方法容易受到对抗性查询的攻击,并且在人工设计的攻击查询后,遗忘的知识会重新出现。作为主动评估遗忘模型漏洞的红队工作的一部分,我们设计了动态遗忘攻击(DUA),这是一个动态和自动化的框架,用于攻击这些模型并评估其鲁棒性。它优化对抗性后缀,以在各种场景中重新引入遗忘的知识。我们发现,即使不泄露遗忘模型的参数,遗忘的知识也可以在55.2%的问题中恢复。针对这种漏洞,我们提出了潜在对抗遗忘(LAU),这是一个通用框架,可以有效地增强遗忘过程的鲁棒性。它将遗忘过程表述为一个最小-最大优化问题,并通过两个阶段解决:攻击阶段,训练扰动向量并将其添加到LLM的潜在空间以恢复遗忘的知识;防御阶段,使用先前训练的扰动向量来增强遗忘模型的鲁棒性。通过我们的LAU框架,我们获得了两种鲁棒的遗忘方法,AdvGA和AdvNPO。我们跨多个遗忘基准和各种模型进行了广泛的实验,结果表明它们将遗忘效果提高了53.5%以上,仅导致相邻知识减少不到11.6%,并且几乎不影响模型的一般能力。
🔬 方法详解
问题定义:现有的大语言模型知识遗忘方法,在面对精心设计的对抗性查询时,容易失效,导致模型重新表现出已经被“遗忘”的知识。这表明现有方法的鲁棒性不足,无法有效应对恶意攻击,从而限制了其在实际应用中的可靠性。现有方法缺乏系统性的鲁棒性评估机制,难以发现和解决潜在的安全隐患。
核心思路:论文的核心思路是将知识遗忘过程建模为一个最小-最大优化问题。通过对抗性攻击,主动挖掘遗忘模型的漏洞,并利用这些漏洞来训练模型,使其对类似的攻击具有更强的抵抗能力。这种对抗训练的思想,旨在提升遗忘模型的鲁棒性,使其在面对恶意查询时,依然能够保持遗忘效果。
技术框架:该论文提出的潜在对抗遗忘(LAU)框架包含两个主要阶段:攻击阶段和防御阶段。在攻击阶段,通过动态遗忘攻击(DUA)框架,自动生成对抗性后缀,以尝试重新激活模型中已被遗忘的知识。这些对抗性后缀被用来训练扰动向量,并添加到LLM的潜在空间。在防御阶段,利用攻击阶段训练得到的扰动向量,对遗忘模型进行训练,以增强其对这些扰动的抵抗能力。通过这种对抗训练的方式,提升遗忘模型的鲁棒性。
关键创新:该论文的关键创新在于提出了一个动态和自动化的对抗攻击框架(DUA),用于评估和提升LLM知识遗忘的鲁棒性。与以往手动设计的攻击查询不同,DUA能够自动生成对抗性样本,更有效地挖掘遗忘模型的漏洞。此外,LAU框架将对抗训练引入到知识遗忘领域,通过最小-最大优化,提升了遗忘模型的鲁棒性。
关键设计:在攻击阶段,DUA框架通过优化对抗性后缀,最大化模型重新表现出遗忘知识的可能性。这可以通过梯度下降等优化算法来实现。在防御阶段,LAU框架使用攻击阶段生成的扰动向量,对遗忘模型进行对抗训练。具体的训练方式可以是最小化模型在对抗样本上的损失函数,从而提升模型对这些扰动的鲁棒性。论文提出了两种基于LAU框架的鲁棒遗忘方法,AdvGA和AdvNPO,具体的技术细节(如损失函数、网络结构等)在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的LAU框架能够显著提升LLM知识遗忘的鲁棒性。具体而言,基于LAU框架的AdvGA和AdvNPO方法,在多个遗忘基准测试中,将遗忘效果提高了53.5%以上,同时仅导致相邻知识减少不到11.6%,并且几乎不影响模型的一般能力。这些数据表明,该方法在提升遗忘效果的同时,能够保持模型的性能和通用性。
🎯 应用场景
该研究成果可应用于提升大语言模型在各种场景下的安全性,例如:防止模型泄露敏感信息、避免生成有害内容、以及确保模型在面对恶意攻击时依然能够保持其预期的行为。通过提升知识遗忘的鲁棒性,可以增强LLM在金融、医疗等敏感领域的应用可靠性,并降低其被恶意利用的风险。
📄 摘要(原文)
LLM have achieved success in many fields but still troubled by problematic content in the training corpora. LLM unlearning aims at reducing their influence and avoid undesirable behaviours. However, existing unlearning methods remain vulnerable to adversarial queries and the unlearned knowledge resurfaces after the manually designed attack queries. As part of a red-team effort to proactively assess the vulnerabilities of unlearned models, we design Dynamic Unlearning Attack (DUA), a dynamic and automated framework to attack these models and evaluate their robustness. It optimizes adversarial suffixes to reintroduce the unlearned knowledge in various scenarios. We find that unlearned knowledge can be recovered in $55.2\%$ of the questions, even without revealing the unlearned model's parameters. In response to this vulnerability, we propose Latent Adversarial Unlearning (LAU), a universal framework that effectively enhances the robustness of the unlearned process. It formulates the unlearning process as a min-max optimization problem and resolves it through two stages: an attack stage, where perturbation vectors are trained and added to the latent space of LLMs to recover the unlearned knowledge, and a defense stage, where previously trained perturbation vectors are used to enhance unlearned model's robustness. With our LAU framework, we obtain two robust unlearning methods, AdvGA and AdvNPO. We conduct extensive experiments across multiple unlearning benchmarks and various models, and demonstrate that they improve the unlearning effectiveness by over $53.5\%$, cause only less than a $11.6\%$ reduction in neighboring knowledge, and have almost no impact on the model's general capabilities.