BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap
作者: Shengyuan Hu, Neil Kale, Pratiksha Thaker, Yiwei Fu, Steven Wu, Virginia Smith
分类: cs.LG, cs.AI
发布日期: 2025-05-28
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
BLUR:一个针对LLM非学习的基准测试,对遗忘-保留重叠具有鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM非学习 基准测试 遗忘-保留重叠 鲁棒性评估 重学习攻击
📋 核心要点
- 现有LLM非学习基准测试的遗忘集和保留集差异过大,导致对非学习方法效果的评估不准确,容易受到重学习攻击。
- BLUR基准测试通过提供更真实的遗忘-保留重叠场景,扩展评估任务,并引入组合查询和不同难度的重学习数据集,来解决上述问题。
- 实验表明,现有方法在BLUR上的性能显著下降,简单的非学习方法表现更好,突出了鲁棒评估的重要性。
📝 摘要(中文)
本文提出了一种新的LLM非学习基准测试,旨在解决现有基准测试中遗忘集和保留集差异过大的问题,这种差异导致对LLM非学习方法效果的评估失真。作者发现,这种差异使得模型容易受到诸如重学习攻击之类的良性扰动,从而暴露了本应被遗忘的知识。为了解决这个问题,作者提出了BLUR,该基准测试提供了更真实的遗忘-保留重叠场景,并通过扩展的评估任务、组合的遗忘/保留查询以及不同难度的重学习数据集,显著扩展了现有的非学习基准测试。实验结果表明,现有方法在BLUR上的性能显著下降,简单的非学习方法甚至优于最近提出的复杂方法。这些结果强调了鲁棒评估的重要性,并为未来的研究方向提供了重要启示。该基准测试已公开。
🔬 方法详解
问题定义:现有LLM非学习基准测试存在遗忘集和保留集差异过大的问题。这种差异导致评估结果无法真实反映非学习方法在实际应用中的效果,使得模型容易受到重学习攻击,从而暴露了本应被遗忘的知识。现有方法难以在遗忘特定信息的同时,保持模型在其他任务上的性能。
核心思路:BLUR的核心思路是创建一个更真实的遗忘-保留重叠场景。通过精心设计遗忘集和保留集,使得它们之间存在一定的关联性,从而更准确地评估非学习方法在实际应用中的鲁棒性。同时,引入重学习数据集,模拟模型在部署后可能遇到的攻击,检验非学习方法的效果。
技术框架:BLUR基准测试包含以下几个主要组成部分: 1. 扩展的评估任务:提供更全面的评估指标,包括遗忘质量和保留质量。 2. 组合的遗忘/保留查询:设计同时包含遗忘信息和保留信息的查询,以评估模型在两者之间的平衡能力。 3. 重学习数据集:构建不同难度的重学习数据集,模拟模型在部署后可能遇到的攻击。 4. 多样化的数据集:涵盖多种类型的数据,例如文本、代码等,以评估非学习方法在不同领域的泛化能力。
关键创新:BLUR最重要的创新在于其对遗忘-保留重叠的关注。与现有基准测试相比,BLUR更注重模拟实际应用场景,使得评估结果更具参考价值。此外,BLUR还引入了重学习数据集,为评估非学习方法的鲁棒性提供了新的视角。
关键设计:BLUR的关键设计包括: 1. 遗忘集和保留集的构建:采用特定的策略,确保遗忘集和保留集之间存在一定的关联性,例如,使用相似的关键词或主题。 2. 重学习数据集的构建:设计不同难度的重学习数据集,例如,通过添加噪声或修改文本来增加难度。 3. 评估指标的选择:选择合适的评估指标,例如,使用准确率、召回率等来评估遗忘质量和保留质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有非学习方法在BLUR上的性能显著下降,简单的非学习方法甚至优于最近提出的复杂方法。例如,某些复杂方法在BLUR上的准确率下降了20%以上,而简单的微调方法表现相对稳定。这表明现有方法在处理遗忘-保留重叠问题时存在不足,需要进一步改进。
🎯 应用场景
该研究成果可应用于提升LLM的安全性,例如,移除模型中存在的敏感信息或有害内容,同时保证模型在其他任务上的性能。这对于保护用户隐私、防止模型被恶意利用具有重要意义。此外,该基准测试可以促进LLM非学习领域的研究,推动相关技术的进步。
📄 摘要(原文)
Machine unlearning has the potential to improve the safety of large language models (LLMs) by removing sensitive or harmful information post hoc. A key challenge in unlearning involves balancing between forget quality (effectively unlearning undesirable information) and retain quality (maintaining good performance on other, general tasks). Unfortunately, as we show, current LLM unlearning benchmarks contain highly disparate forget and retain sets -- painting a false picture of the effectiveness of LLM unlearning methods. This can be particularly problematic because it opens the door for benign perturbations, such as relearning attacks, to easily reveal supposedly unlearned knowledge once models are deployed. To address this, we present $\texttt{BLUR}$: a benchmark for LLM unlearning that provides more realistic scenarios of forget-retain overlap. $\texttt{BLUR}$ significantly expands on existing unlearning benchmarks by providing extended evaluation tasks, combined forget/retain queries, and relearning datasets of varying degrees of difficulty. Despite the benign nature of the queries considered, we find that the performance of existing methods drops significantly when evaluated on $\texttt{BLUR}$, with simple approaches performing better on average than more recent methods. These results highlight the importance of robust evaluation and suggest several important directions of future study. Our benchmark is publicly available at: https://huggingface.co/datasets/forgelab/BLUR