DUSK: Do Not Unlearn Shared Knowledge
作者: Wonje Jeung, Sangyeon Yoon, Hyesoo Hong, Soeun Kim, Seungju Han, Youngjae Yu, Albert No
分类: cs.CL
发布日期: 2025-05-21 (更新: 2025-05-31)
备注: Code and models are available at https://ai-isl.github.io/dusk
💡 一句话要点
DUSK基准测试:评估LLM在数据重叠场景下的选择性遗忘能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器遗忘 大型语言模型 基准测试 数据重叠 选择性遗忘
📋 核心要点
- 现有机器遗忘评估假设遗忘数据和保留数据完全分离,忽略了现实中数据重叠的情况,导致评估结果与实际应用脱节。
- DUSK基准通过构建包含共享信息和独特内容的数据集,模拟了真实世界的数据重叠场景,从而更准确地评估遗忘方法。
- 实验表明,现有遗忘方法在数据重叠场景下表现不佳,难以在删除特定信息的同时保留共享知识,突显了DUSK基准的价值。
📝 摘要(中文)
大型语言模型(LLMs)在实际应用中日益普及,引发了对版权或敏感数据未经授权使用的担忧。机器遗忘旨在移除“遗忘”数据,同时保留“保留”集中的效用和信息。然而,现有评估通常假设遗忘集和保留集完全不相交,忽略了两者存在重叠内容的现实场景。例如,一篇新闻文章可能需要被遗忘,即使同一事件(如日本地震)也在维基百科上被如实描述。有效的遗忘应该删除新闻文章的特定措辞,同时保留公开支持的事实。本文提出了DUSK,一个旨在评估在现实数据重叠下遗忘方法的基准。DUSK构建了以不同风格描述相同事实内容的文件集,其中一些共享信息出现在所有集合中,而其他内容则对每个集合保持唯一。当一个集合被指定为遗忘时,理想的方法应该删除其独特内容,同时保留共享事实。我们定义了七个评估指标来评估遗忘方法是否可以实现这种选择性删除。我们对九种最新遗忘方法的评估揭示了一个关键限制:虽然大多数方法可以删除表面文本,但它们通常无法在不损害共享内容的情况下删除更深层次的、特定于上下文的知识。我们将DUSK作为公共基准发布,以支持为实际应用开发更精确和可靠的遗忘技术。
🔬 方法详解
问题定义:现有机器遗忘方法在评估时,通常假设遗忘数据集和保留数据集是完全独立的,这与现实场景不符。在实际应用中,需要遗忘的数据可能与保留数据存在重叠,例如,关于同一事件的不同描述。现有方法难以在这种数据重叠的情况下,精确地删除需要遗忘的信息,同时保留共享的知识,导致遗忘效果不佳或对保留数据造成损害。
核心思路:DUSK基准的核心思路是构建一个包含数据重叠的测试环境,用于评估机器遗忘方法在现实场景下的表现。通过创建描述相同事实内容但风格不同的文档集,DUSK能够模拟遗忘数据和保留数据之间存在共享信息的情况。理想的遗忘方法应该能够删除特定文档的独特内容,同时保留所有文档共享的事实知识。
技术框架:DUSK基准的整体框架包括以下几个关键组成部分:1) 数据集构建:创建多个文档集,每个文档集以不同的风格描述相同的事实内容,包含共享信息和独特内容。2) 遗忘任务定义:指定一个文档集作为遗忘集,其余文档集作为保留集。3) 评估指标设计:定义七个评估指标,用于衡量遗忘方法在删除独特内容和保留共享知识方面的表现。4) 基线方法评估:使用九种现有的遗忘方法在DUSK基准上进行评估,分析其优缺点。
关键创新:DUSK基准的关键创新在于其对现实数据重叠场景的模拟。与以往的遗忘评估方法不同,DUSK考虑了遗忘数据和保留数据之间存在共享信息的情况,从而更准确地评估了遗忘方法在实际应用中的性能。此外,DUSK还定义了一套全面的评估指标,用于衡量遗忘方法在删除独特内容和保留共享知识方面的能力。
关键设计:DUSK基准的关键设计包括:1) 文档集的构建方式:确保不同文档集描述相同的事实内容,但使用不同的风格和措辞。2) 共享信息和独特内容的比例:控制共享信息和独特内容在文档集中的比例,以模拟不同的数据重叠程度。3) 评估指标的选择:选择能够有效衡量遗忘方法在删除独特内容和保留共享知识方面的指标,例如,基于困惑度的指标、基于信息检索的指标等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有九种遗忘方法在DUSK基准上表现不佳,难以在删除特定文档的独特内容的同时,保留所有文档共享的事实知识。这表明现有方法在处理数据重叠场景时存在局限性,需要在未来的研究中加以改进。DUSK基准的发布为评估和改进机器遗忘方法提供了一个有价值的平台。
🎯 应用场景
DUSK基准测试为开发更可靠、更精确的机器遗忘技术提供了基础,可应用于处理包含敏感或错误信息的LLM。例如,在金融、医疗等领域,可以利用该技术安全地删除模型中的特定数据,同时保留模型的通用知识,避免信息泄露或模型偏差,提升LLM在实际应用中的安全性和可靠性。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in real-world applications, raising concerns about the unauthorized use of copyrighted or sensitive data. Machine unlearning aims to remove such 'forget' data while preserving utility and information from the 'retain' set. However, existing evaluations typically assume that forget and retain sets are fully disjoint, overlooking realistic scenarios where they share overlapping content. For instance, a news article may need to be unlearned, even though the same event, such as an earthquake in Japan, is also described factually on Wikipedia. Effective unlearning should remove the specific phrasing of the news article while preserving publicly supported facts. In this paper, we introduce DUSK, a benchmark designed to evaluate unlearning methods under realistic data overlap. DUSK constructs document sets that describe the same factual content in different styles, with some shared information appearing across all sets and other content remaining unique to each. When one set is designated for unlearning, an ideal method should remove its unique content while preserving shared facts. We define seven evaluation metrics to assess whether unlearning methods can achieve this selective removal. Our evaluation of nine recent unlearning methods reveals a key limitation: while most can remove surface-level text, they often fail to erase deeper, context-specific knowledge without damaging shared content. We release DUSK as a public benchmark to support the development of more precise and reliable unlearning techniques for real-world applications.