SEPS: A Separability Measure for Robust Unlearning in LLMs

📄 arXiv: 2505.14832v2 📥 PDF

作者: Wonje Jeung, Sangyeon Yoon, Albert No

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-05-27)

备注: 32 pages


💡 一句话要点

提出SEPS评估框架与MP混合提示学习,提升LLM在混合查询场景下的不可学习能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不可学习 知识遗忘 混合查询 评估框架

📋 核心要点

  1. 现有LLM不可学习方法在混合查询场景下表现不佳,无法同时有效遗忘目标知识并保留相关信息。
  2. 论文提出SEPS评估框架,用于衡量模型在混合查询提示下的遗忘和保留能力,并发现现有方法的不足。
  3. 提出混合提示(MP)不可学习策略,通过统一训练目标,显著提升了LLM在复杂混合查询场景下的不可学习性能。

📝 摘要(中文)

本文旨在解决大型语言模型(LLM)中选择性知识遗忘的问题,即在保留关键信息的同时,确保模型忘记特定内容。现有不可学习指标侧重于评估模型对保留查询的正确响应和对遗忘查询的拒绝,但忽略了现实场景中遗忘查询并非孤立出现的情况。实际上,遗忘和保留查询经常在同一提示中同时存在,因此混合查询评估至关重要。为此,我们引入SEPS评估框架,显式衡量模型在单个提示中同时遗忘和保留信息的能力。通过在三个基准数据集上的大量实验,我们发现了现有不可学习方法的两个主要失效模式:(1)无目标遗忘会不加区分地删除遗忘和保留内容;(2)有目标遗忘会过度拟合单查询场景,导致处理多查询时出现灾难性失败。为了解决这些问题,我们提出混合提示(MP)不可学习策略,将遗忘和保留查询整合到统一的训练目标中。我们的方法显著提高了不可学习的有效性,即使在单个提示中包含多达八个混合遗忘和保留查询的复杂设置中,也表现出鲁棒性。

🔬 方法详解

问题定义:现有LLM的不可学习方法主要关注模型对单独的遗忘查询和保留查询的响应,缺乏对现实场景中混合查询的处理能力。当遗忘查询和保留查询同时出现在一个提示中时,现有方法要么过度遗忘,导致保留信息丢失,要么无法有效遗忘目标知识,导致信息泄露。因此,如何提升LLM在混合查询场景下的不可学习能力是一个关键问题。

核心思路:论文的核心思路是设计一种能够同时考虑遗忘和保留需求的训练策略。通过将遗忘查询和保留查询整合到同一个提示中,并以此作为训练数据,模型可以学习区分需要遗忘的信息和需要保留的信息,从而提升其在混合查询场景下的表现。

技术框架:论文主要包含两个部分:SEPS评估框架和混合提示(MP)不可学习策略。SEPS框架用于评估模型在混合查询场景下的遗忘和保留能力,通过设计包含遗忘和保留查询的混合提示,并计算模型对这些查询的响应准确率来衡量。MP策略则是一种新的训练方法,它将混合提示作为训练数据,通过优化模型在这些混合提示上的表现,来提升其不可学习能力。

关键创新:论文的关键创新在于提出了SEPS评估框架和MP混合提示学习策略。SEPS框架能够更全面地评估LLM的不可学习能力,而MP策略则能够有效提升LLM在混合查询场景下的不可学习性能。与现有方法相比,MP策略能够更好地平衡遗忘和保留的需求,避免过度遗忘或遗忘不彻底的问题。

关键设计:MP策略的关键设计在于如何生成有效的混合提示。论文中,混合提示是通过将遗忘查询和保留查询随机组合而成的。此外,论文还设计了一个统一的训练目标,该目标同时考虑了模型对遗忘查询的拒绝和对保留查询的正确响应。具体的损失函数设计未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MP混合提示学习策略在三个基准数据集上均取得了显著的性能提升。在包含多个混合查询的复杂场景下,MP策略仍然能够保持较高的不可学习性能,优于现有的不可学习方法。具体性能数据未知,但论文强调了MP策略在复杂场景下的鲁棒性。

🎯 应用场景

该研究成果可应用于对数据隐私和模型安全有较高要求的场景,例如金融、医疗等领域。通过提升LLM的不可学习能力,可以确保模型在忘记敏感信息的同时,仍然能够提供准确和有用的服务。此外,该研究还可以促进LLM在知识产权保护方面的应用,例如防止模型泄露受版权保护的内容。

📄 摘要(原文)

Machine unlearning aims to selectively remove targeted knowledge from Large Language Models (LLMs), ensuring they forget specified content while retaining essential information. Existing unlearning metrics assess whether a model correctly answers retain queries and rejects forget queries, but they fail to capture real-world scenarios where forget queries rarely appear in isolation. In fact, forget and retain queries often coexist within the same prompt, making mixed-query evaluation crucial. We introduce SEPS, an evaluation framework that explicitly measures a model's ability to both forget and retain information within a single prompt. Through extensive experiments across three benchmarks, we identify two key failure modes in existing unlearning methods: (1) untargeted unlearning indiscriminately erases both forget and retain content once a forget query appears, and (2) targeted unlearning overfits to single-query scenarios, leading to catastrophic failures when handling multiple queries. To address these issues, we propose Mixed Prompt (MP) unlearning, a strategy that integrates both forget and retain queries into a unified training objective. Our approach significantly improves unlearning effectiveness, demonstrating robustness even in complex settings with up to eight mixed forget and retain queries in a single prompt.