Do Unlearning Methods Remove Information from Language Model Weights?

📄 arXiv: 2410.08827v3 📥 PDF

作者: Aghyad Deeb, Fabien Roger

分类: cs.LG

发布日期: 2024-10-11 (更新: 2025-02-07)


💡 一句话要点

提出对抗性评估方法,揭示现有语言模型“遗忘”技术的信息移除局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 信息遗忘 对抗性评估 模型安全 预训练模型

📋 核心要点

  1. 现有语言模型的“遗忘”技术,难以确定是真正移除了有害信息,还是仅仅使其难以访问。
  2. 论文提出一种对抗性评估方法,通过给予攻击者部分“遗忘”信息,来测试模型权重中是否真正移除了信息。
  3. 实验表明,现有“遗忘”方法在移除预训练期间学习的信息方面存在局限性,微调后可恢复高达88%的原始准确率。

📝 摘要(中文)

大型语言模型在网络安全攻击、生物武器制造和操纵人类方面的知识带来了被滥用的风险。先前的工作提出了“遗忘”这些知识的方法。然而,目前尚不清楚这些技术是真正从模型权重中移除了信息,还是仅仅使其更难访问。为了区分这两个目标,我们提出了一种对抗性评估方法来测试信息是否从模型权重中移除:我们给予攻击者一些本应被移除的事实,并利用这些事实,攻击者试图恢复来自同一分布的其他无法从已知事实中推断出的事实。结果表明,当应用于当前针对预训练期间学习的信息的“遗忘”方法时,在可访问的事实上进行微调可以恢复88%的预“遗忘”准确率,揭示了这些方法在从模型权重中移除信息方面的局限性。我们的结果还表明,与尝试“遗忘”预训练期间学习的信息的评估相比,衡量在额外的微调阶段学习的信息的“遗忘”鲁棒性的评估可能会高估鲁棒性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的“遗忘”问题,即如何有效地从模型权重中移除有害或不希望存在的知识,例如网络安全攻击、生物武器制造等相关信息。现有“遗忘”方法的痛点在于,难以区分是真正移除了信息,还是仅仅使模型更难访问这些信息,缺乏有效的评估手段来衡量“遗忘”的彻底性。

核心思路:论文的核心思路是采用对抗性评估的方式,模拟攻击者利用部分已知信息来推断模型中本应被“遗忘”的信息。如果攻击者能够成功恢复这些信息,则说明“遗忘”方法并未真正从模型权重中移除相关知识。这种方法能够更准确地评估“遗忘”技术的有效性。

技术框架:该对抗性评估框架包含以下几个主要步骤:1) 选择需要“遗忘”的目标信息;2) 使用现有的“遗忘”方法对模型进行处理;3) 给予攻击者部分与目标信息相关的可访问信息;4) 攻击者利用这些可访问信息,尝试恢复模型中剩余的目标信息;5) 根据攻击者的恢复成功率来评估“遗忘”方法的有效性。攻击者通常采用微调等技术手段。

关键创新:论文最重要的技术创新点在于提出了对抗性评估方法,这种方法能够更准确地评估“遗忘”技术是否真正从模型权重中移除了信息,而不是仅仅使其难以访问。与传统的评估方法相比,对抗性评估能够更有效地揭示现有“遗忘”方法的局限性。

关键设计:在实验设计中,关键在于如何选择可访问信息和目标信息,以及如何设计攻击者的攻击策略。论文通常会选择来自同一分布的信息,并采用微调等技术作为攻击手段。此外,论文还会比较在预训练阶段学习的信息和在微调阶段学习的信息的“遗忘”难度,以评估不同阶段学习的信息的“遗忘”鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的“遗忘”方法在移除预训练期间学习的信息方面存在局限性。通过对抗性评估,攻击者利用部分可访问信息,可以恢复高达88%的预“遗忘”准确率。此外,研究还发现,评估在微调阶段学习的信息的“遗忘”鲁棒性可能会高估实际效果,因为预训练阶段学习的信息更难被彻底“遗忘”。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性与可靠性,例如,在模型发布前,利用该方法评估并改进“遗忘”技术,确保模型不会泄露敏感信息或被用于恶意目的。此外,该方法还可用于评估不同“遗忘”技术的优劣,指导研究人员开发更有效的“遗忘”算法。

📄 摘要(原文)

Large Language Models' knowledge of how to perform cyber-security attacks, create bioweapons, and manipulate humans poses risks of misuse. Previous work has proposed methods to unlearn this knowledge. Historically, it has been unclear whether unlearning techniques are removing information from the model weights or just making it harder to access. To disentangle these two objectives, we propose an adversarial evaluation method to test for the removal of information from model weights: we give an attacker access to some facts that were supposed to be removed, and using those, the attacker tries to recover other facts from the same distribution that cannot be guessed from the accessible facts. We show that using fine-tuning on the accessible facts can recover 88% of the pre-unlearning accuracy when applied to current unlearning methods for information learned during pretraining, revealing the limitations of these methods in removing information from the model weights. Our results also suggest that unlearning evaluations that measure unlearning robustness on information learned during an additional fine-tuning phase may overestimate robustness compared to evaluations that attempt to unlearn information learned during pretraining.