Catastrophic Failure of LLM Unlearning via Quantization

📄 arXiv: 2410.16454v3 📥 PDF

作者: Zhiwei Zhang, Fali Wang, Xiaomin Li, Zongyu Wu, Xianfeng Tang, Hui Liu, Qi He, Wenpeng Yin, Suhang Wang

分类: cs.CL, cs.AI

发布日期: 2024-10-21 (更新: 2025-03-21)

备注: ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

量化揭示LLM卸载学习的灾难性失败:模型遗忘实为隐藏

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 卸载学习 量化 模型安全 知识遗忘

📋 核心要点

  1. 现有LLM卸载学习方法可能只是隐藏了知识,而未真正实现遗忘,现有基准难以检测。
  2. 通过对卸载学习后的模型进行量化,可以有效恢复模型中被“遗忘”的信息。
  3. 实验表明,量化后模型保留的遗忘知识比例显著增加,揭示了卸载学习的脆弱性。

📝 摘要(中文)

大型语言模型(LLMs)通过在海量文本语料库上的广泛训练,在文本生成方面表现出卓越的能力。然而,LLMs也可能从其训练数据的多样性和敏感性中获得不良行为,这些数据可能包含受版权保护的和私有的内容。机器卸载学习(Machine Unlearning)作为一种可行的解决方案被引入,旨在消除这些问题内容的影响,而无需耗费成本和时间的重新训练。这个过程旨在从LLMs中删除特定的知识,同时尽可能地保留模型的效用。尽管当前卸载学习方法有效,但很少有人关注现有的LLMs卸载学习方法是否真正实现了遗忘,或者仅仅是隐藏了知识,而目前的卸载学习基准无法检测到这一点。本文揭示了对已经进行卸载学习的模型应用量化可以恢复“遗忘”的信息。为了彻底评估这种现象,我们使用各种量化技术在多个精度级别上进行了全面的实验。我们发现,对于具有效用约束的卸载学习方法,卸载后的模型在全精度下平均保留了21%的预期遗忘知识,而在4位量化后,这一比例显著增加到83%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)卸载学习的有效性问题。现有的卸载学习方法声称能够从模型中移除特定知识,但缺乏对“遗忘”是否彻底的验证。现有基准测试无法有效检测模型是否仅仅是隐藏了相关知识,而非真正遗忘。这使得模型可能在表面上通过了卸载学习的评估,但实际上仍然保留了敏感或有害信息,存在潜在风险。

核心思路:论文的核心思路是利用量化技术来揭示LLM卸载学习的潜在失败。作者假设,即使卸载学习方法在全精度下看似有效,但模型可能仍然以某种形式存储着“遗忘”的知识。通过对卸载后的模型进行量化,可以放大这些隐藏的知识,使其更容易被提取和利用。量化过程会降低模型的精度,迫使模型更加依赖于其内部存储的知识,从而暴露卸载学习的不足。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择预训练的LLM;2) 使用现有的卸载学习方法对模型进行卸载学习,移除特定知识;3) 对卸载后的模型应用不同精度的量化技术(例如,4-bit量化);4) 使用特定的评估指标来衡量量化后模型是否仍然保留了被“遗忘”的知识。评估指标包括模型在特定任务上的性能,以及模型生成特定文本的能力。

关键创新:论文最重要的技术创新点在于发现了量化可以作为一种有效的工具来评估LLM卸载学习的真实效果。与现有方法不同,该方法不依赖于复杂的知识探测技术,而是通过简单的量化操作来揭示模型内部隐藏的知识。这种方法简单有效,可以广泛应用于评估各种LLM卸载学习方法的有效性。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM和卸载学习方法;2) 使用多种量化技术和精度级别,以全面评估量化对卸载学习效果的影响;3) 设计合适的评估指标,以准确衡量模型是否仍然保留了被“遗忘”的知识。例如,可以使用生成特定文本的概率作为评估指标,如果模型在卸载学习后仍然能够以较高的概率生成被移除的文本,则说明卸载学习失败。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,对于具有效用约束的卸载学习方法,卸载后的模型在全精度下平均保留了21%的预期遗忘知识,而在4位量化后,这一比例显著增加到83%。这表明现有的卸载学习方法并不能完全消除模型中的有害信息,量化可以有效揭示这些隐藏的信息,突显了现有卸载学习方法的脆弱性。

🎯 应用场景

该研究成果可应用于评估和改进LLM的卸载学习方法,确保模型真正遗忘敏感或有害信息。这对于保护用户隐私、防止模型被用于恶意目的具有重要意义。此外,该研究也为开发更安全的LLM提供了新的思路,例如,可以在训练过程中引入量化技术,以提高模型的鲁棒性和安全性。

📄 摘要(原文)

Large language models (LLMs) have shown remarkable proficiency in generating text, benefiting from extensive training on vast textual corpora. However, LLMs may also acquire unwanted behaviors from the diverse and sensitive nature of their training data, which can include copyrighted and private content. Machine unlearning has been introduced as a viable solution to remove the influence of such problematic content without the need for costly and time-consuming retraining. This process aims to erase specific knowledge from LLMs while preserving as much model utility as possible. Despite the effectiveness of current unlearning methods, little attention has been given to whether existing unlearning methods for LLMs truly achieve forgetting or merely hide the knowledge, which current unlearning benchmarks fail to detect. This paper reveals that applying quantization to models that have undergone unlearning can restore the "forgotten" information. To thoroughly evaluate this phenomenon, we conduct comprehensive experiments using various quantization techniques across multiple precision levels. We find that for unlearning methods with utility constraints, the unlearned model retains an average of 21\% of the intended forgotten knowledge in full precision, which significantly increases to 83\% after 4-bit quantization. ... Our code is available at: \href{https://github.com/zzwjames/FailureLLMUnlearning}{https://github.com/zzwjames/FailureLLMUnlearning}.