The Erasure Illusion: Stress-Testing the Generalization of LLM Forgetting Evaluation

📄 arXiv: 2512.19025v2 📥 PDF

作者: Hengrui Jia, Taoran Li, Jonas Guan, Varun Chandrasekaran

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-12-22 (更新: 2025-12-23)


💡 一句话要点

提出近端代理生成(PSG)框架,用于压力测试LLM遗忘评估的泛化能力,揭示现有评估方法的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器遗忘 大型语言模型 遗忘评估 压力测试 泛化能力 近端代理生成 AI安全

📋 核心要点

  1. 现有LLM遗忘评估主要依赖于在特定遗忘数据集上的性能下降,忽略了模型可能保留的泛化知识。
  2. 论文提出近端代理生成(PSG)框架,通过生成语义相关但嵌入空间不同的代理数据集来压力测试遗忘评估指标。
  3. 实验表明,现有指标经常高估LLM的遗忘能力,PSG框架能有效揭示模型保留的知识,暴露评估方法的不足。

📝 摘要(中文)

机器遗忘旨在从训练模型中移除特定数据的影响,这对于遵守版权法和确保AI安全至关重要。目前的遗忘指标通常通过监测模型在特定遗忘数据集($D_u$)上的性能下降来衡量成功。我们认为,对于大型语言模型(LLM)来说,这种评估范式是不充分且具有潜在误导性的。许多现实世界中的遗忘应用,出于版权或安全考虑,不仅针对$D_u$中的逐字内容,还针对模型从中获得的更广泛泛化行为。我们证明,LLM可以通过标准的遗忘评估,表面上“忘记”了目标知识,同时在与$D_u$语义相邻的内容上保持强大的能力。这种现象表明,擦除确切的句子并不一定等同于移除底层知识。为了解决这个差距,我们提出了近端代理生成(PSG),一个自动化的压力测试框架,用于生成代理数据集$ ilde{D}_u$。这个代理集在语义上源自$D_u$,但在嵌入空间中足够不同。通过比较$D_u$和$ ilde{D}_u$之间的遗忘指标得分,我们可以压力测试指标本身的可靠性。我们对三个LLM系列(Llama-3-8B、Qwen2.5-7B和Zephyr-7B-$β$)、三个不同的数据集和七个标准指标进行了广泛的评估,揭示了普遍的不一致性。我们发现,当前的指标经常高估遗忘的成功,未能检测到我们的压力测试数据集暴露的保留知识。

🔬 方法详解

问题定义:论文旨在解决现有LLM遗忘评估方法的不足。现有方法主要关注模型在特定遗忘数据集上的性能下降,而忽略了模型可能从这些数据中学到的泛化知识。这种评估方式无法准确反映模型是否真正“忘记”了相关信息,存在安全隐患。

核心思路:论文的核心思路是通过生成与遗忘数据集语义相关但嵌入空间不同的代理数据集,来压力测试现有的遗忘评估指标。如果模型在遗忘数据集上表现出“遗忘”行为,但在代理数据集上仍然表现出相关知识,则说明现有的评估指标存在缺陷。

技术框架:PSG框架包含以下主要步骤:1) 选择或构建遗忘数据集$D_u$;2) 使用语义变换技术(如释义、改写等)生成代理数据集$ ilde{D}_u$,保证语义相关性,但嵌入空间差异性;3) 使用现有的遗忘评估指标分别评估模型在$D_u$和$ ilde{D}_u$上的遗忘效果;4) 比较评估结果,如果模型在$D_u$上表现出“遗忘”,但在$ ilde{D}_u$上仍然表现出相关知识,则认为评估指标存在问题。

关键创新:论文的关键创新在于提出了使用代理数据集进行压力测试的思想,这是一种评估遗忘评估指标泛化能力的新方法。通过这种方法,可以更全面地评估LLM的遗忘效果,并发现现有评估方法的局限性。

关键设计:代理数据集的生成是PSG框架的关键。论文中可能使用了多种语义变换技术,例如基于规则的释义、基于模型的改写等。关键在于控制代理数据集与原始遗忘数据集的语义相关性和嵌入空间差异性。具体参数设置可能包括语义相似度阈值、嵌入空间距离阈值等。此外,选择合适的遗忘评估指标也很重要,例如困惑度、生成质量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的遗忘评估指标在面对PSG框架生成的代理数据集时,经常高估LLM的遗忘效果。例如,模型在原始遗忘数据集上表现出较低的困惑度,但在代理数据集上困惑度显著升高,表明模型仍然保留了相关知识。该研究在Llama-3-8B、Qwen2.5-7B和Zephyr-7B-$β$等多个LLM上验证了PSG框架的有效性。

🎯 应用场景

该研究成果可应用于提升LLM的安全性与合规性,例如在版权保护、隐私保护等领域。通过更准确地评估LLM的遗忘能力,可以避免模型泄露敏感信息或侵犯版权,从而促进LLM在各个领域的安全应用。

📄 摘要(原文)

Machine unlearning aims to remove specific data influences from trained models, a capability essential for adhering to copyright laws and ensuring AI safety. Current unlearning metrics typically measure success by monitoring the model's performance degradation on the specific unlearning dataset ($D_u$). We argue that for Large Language Models (LLMs), this evaluation paradigm is insufficient and potentially misleading. Many real-world uses of unlearning--motivated by copyright or safety--implicitly target not only verbatim content in $D_u$, but also behaviors influenced by the broader generalizations the model derived from it. We demonstrate that LLMs can pass standard unlearning evaluation and appear to have "forgotten" the target knowledge, while simultaneously retaining strong capabilities on content that is semantically adjacent to $D_u$. This phenomenon indicates that erasing exact sentences does not necessarily equate to removing the underlying knowledge. To address this gap, we propose Proximal Surrogate Generation (PSG), an automated stress-testing framework that generates a surrogate dataset, $\tilde{D}_u$. This surrogate set is constructed to be semantically derived from $D_u$ yet sufficiently distinct in embedding space. By comparing unlearning metric scores between $D_u$ and $\tilde{D}_u$, we can stress-test the reliability of the metric itself. Our extensive evaluation across three LLM families (Llama-3-8B, Qwen2.5-7B, and Zephyr-7B-$β$), three distinct datasets, and seven standard metrics reveals widespread inconsistencies. We find that current metrics frequently overestimate unlearning success, failing to detect retained knowledge exposed by our stress-test datasets.