Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?
作者: Guangzhi Sun, Potsawee Manakul, Xiao Zhan, Mark Gales
分类: cs.LG, cs.AI
发布日期: 2025-05-05 (更新: 2025-09-08)
备注: To Appear in EMNLP 2025 main conference
💡 一句话要点
区分遗忘与混淆:提出DF-MCQ方法,实现LLM的真实知识移除与拒绝行为。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识遗忘 大型语言模型 数据隐私 KL散度 模型混淆
📋 核心要点
- 现有LLM遗忘方法依赖混淆而非真正移除知识,易受探测攻击,无法保证数据隐私。
- 提出DF-MCQ方法,通过KL散度平滑模型在多项选择题上的预测分布,实现知识的有效移除。
- 实验表明,DF-MCQ能达到90%以上的拒绝率,并在探测问题上表现出更高的不确定性。
📝 摘要(中文)
遗忘已成为大型语言模型(LLM)的关键能力,以支持数据隐私、法规遵从和伦理AI部署。最近的技术通常依赖于通过注入不正确或不相关的信息来抑制知识,从而进行混淆。这些方法实际上构成了知识的增加,而不是真正的移除,通常使模型容易受到探测攻击。在本文中,我们正式区分了遗忘和混淆,并引入了一个基于探测的评估框架,以评估现有方法是否真正移除了目标信息。此外,我们提出了一种新的遗忘方法DF-MCQ,该方法使用KL散度来平滑模型在自动生成的多项选择题上的预测分布,从而有效地移除关于目标个体的信息,并触发适当的拒绝行为。实验结果表明,DF-MCQ实现了超过90%拒绝率的遗忘,并且在探测问题上具有比混淆高得多的随机选择级别的不确定性。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)遗忘方法,例如通过注入错误信息进行混淆,实际上并没有真正移除模型中存储的知识。这些方法只是通过添加噪声来掩盖目标信息,使得模型在特定情况下表现出“遗忘”的行为。然而,模型仍然可能通过更复杂的探测手段被提取出原始知识,从而无法满足数据隐私和安全的需求。因此,如何真正地从LLM中移除特定知识,而不是简单地混淆它,是一个亟待解决的问题。
核心思路:DF-MCQ的核心思路是通过平滑模型在特定任务上的预测分布,从而降低模型对目标知识的置信度。具体来说,该方法利用KL散度,使得模型在自动生成的多项选择题上的预测分布趋于均匀分布。这意味着模型在面对与目标知识相关的问题时,不再倾向于给出特定的答案,而是表现出随机选择的行为,从而达到真正移除知识的目的。这种方法避免了简单地注入噪声,而是直接作用于模型的预测行为,从而更有效地实现知识遗忘。
技术框架:DF-MCQ方法主要包含以下几个阶段:1) 问题生成:自动生成与目标知识相关的多项选择题。这些问题旨在探测模型是否仍然保留了目标知识。2) 预测分布获取:使用原始模型对生成的多项选择题进行预测,得到模型的原始预测分布。3) KL散度优化:使用KL散度作为损失函数,优化模型参数,使得模型的预测分布趋于均匀分布。具体来说,目标是最小化模型预测分布与均匀分布之间的KL散度。4) 模型微调:使用优化后的模型对原始模型进行微调,从而使模型在其他任务上保持良好的性能。
关键创新:DF-MCQ的关键创新在于它将知识遗忘问题转化为一个预测分布平滑问题。与传统的混淆方法不同,DF-MCQ直接作用于模型的预测行为,而不是简单地添加噪声。通过使用KL散度,DF-MCQ能够有效地降低模型对目标知识的置信度,从而实现真正的知识移除。此外,DF-MCQ还能够触发模型在面对与目标知识相关的问题时,表现出拒绝回答的行为,从而更好地保护数据隐私。
关键设计:DF-MCQ的关键设计包括:1) 多项选择题生成:如何自动生成高质量的多项选择题,以有效地探测模型是否仍然保留了目标知识。2) KL散度权重:如何设置KL散度的权重,以平衡知识遗忘和模型性能之间的trade-off。3) 微调策略:如何设计微调策略,以在实现知识遗忘的同时,尽可能地保持模型在其他任务上的性能。论文中可能涉及具体的损失函数公式,KL散度的计算方式,以及微调的学习率等参数设置(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DF-MCQ方法能够有效地移除LLM中的目标知识,并触发模型在面对相关问题时表现出拒绝回答的行为。具体来说,DF-MCQ实现了超过90%的拒绝率,并且在探测问题上具有比混淆方法高得多的随机选择级别的不确定性。这些结果表明,DF-MCQ是一种有效的知识遗忘方法,能够更好地保护数据隐私。
🎯 应用场景
该研究成果可应用于需要保护用户隐私的各种场景,例如在医疗、金融等领域,可以用于移除模型中存储的敏感信息,防止数据泄露。此外,该方法还可以用于实现模型的“可解释性”,通过移除模型中的特定知识,来理解模型是如何做出决策的。未来,该技术有望成为构建安全、可靠、可信赖AI系统的关键组成部分。
📄 摘要(原文)
Unlearning has emerged as a critical capability for large language models (LLMs) to support data privacy, regulatory compliance, and ethical AI deployment. Recent techniques often rely on obfuscation by injecting incorrect or irrelevant information to suppress knowledge. Such methods effectively constitute knowledge addition rather than true removal, often leaving models vulnerable to probing. In this paper, we formally distinguish unlearning from obfuscation and introduce a probing-based evaluation framework to assess whether existing approaches genuinely remove targeted information. Moreover, we propose DF-MCQ, a novel unlearning method that flattens the model predictive distribution over automatically generated multiple-choice questions using KL-divergence, effectively removing knowledge about target individuals and triggering appropriate refusal behaviour. Experimental results demonstrate that DF-MCQ achieves unlearning with over 90% refusal rate and a random choice-level uncertainty that is much higher than obfuscation on probing questions.