LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks

作者: Soumyadeep Pal, Changsheng Wang, James Diffenderfer, Bhavya Kailkhura, Sijia Liu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-14 (更新: 2025-04-16)

🔗 代码/项目: GITHUB

💡 一句话要点

LLM卸载研究揭示：现有基准测试中存在超乎预期的 Coreset 效应

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM卸载 Coreset效应 机器学习 模型安全 数据选择

📋 核心要点

现有LLM卸载基准测试（如WMDP和MUSE）存在冗余，使用完整遗忘集卸载可能并非必要。
论文提出通过识别遗忘集中的 Coreset 来实现高效卸载，显著减少所需数据量。
实验表明，即使只用5%的随机选择数据，也能维持与完整数据集相近的卸载效果，且对多种方法和攻击具有鲁棒性。

📝 摘要（中文）

大型语言模型卸载（Unlearning）已成为确保模型安全和可控行为的关键挑战，其目标是从预训练模型中移除不需要的数据影响，同时保留通用能力。最近的研究致力于开发LLM卸载基准，如WMDP和MUSE，以促进标准化的卸载性能评估和方法比较。尽管这些基准很有用，但我们首次揭示了其中存在一种新的coreset效应。具体而言，我们发现使用原始（完整）遗忘集实现的LLM卸载可以通过一个显著更小的子集（作为“coreset”发挥作用）有效地维持，例如，仅需遗忘集的5%，即使是随机选择的子集。这表明在这些基准中，LLM卸载可以非常容易地执行，即使在极低数据的情况下。我们证明了这种coreset效应仍然很强，无论使用哪种LLM卸载方法，如NPO和RMU。令人惊讶的是，这种强大的coreset效应在各种数据选择方法中也很稳健，从随机选择到更复杂的启发式方法。我们通过基于关键词的视角解释了LLM卸载中的coreset效应，表明仅从遗忘集中提取的关键词就对卸载效果有显著贡献，并表明当前的卸载是由一组紧凑的高影响力token驱动的，而不是整个数据集。我们进一步证明了coreset卸载模型在其他维度上的保真度，例如模式连通性和对越狱攻击的鲁棒性。

🔬 方法详解

问题定义：论文旨在解决现有LLM卸载基准测试中存在的冗余问题。现有方法通常需要使用完整的遗忘数据集进行卸载，计算成本高昂，效率低下。论文发现，在现有基准测试中，并非所有遗忘数据都对卸载效果有同等贡献，存在一个更小的、具有代表性的数据子集（coreset），可以实现与完整数据集相近的卸载效果。

核心思路：论文的核心思路是识别并利用遗忘数据集中的coreset进行LLM卸载。通过分析遗忘数据集中不同样本对卸载效果的贡献，发现少数关键样本（即coreset）对卸载效果起主导作用。因此，可以通过选择这些关键样本，构建一个更小的遗忘数据集，从而实现高效的LLM卸载。这种方法可以显著降低计算成本，提高卸载效率。

技术框架：论文的研究框架主要包括以下几个步骤：1) 使用现有的LLM卸载基准测试（如WMDP和MUSE）作为实验平台；2) 使用不同的LLM卸载方法（如NPO和RMU）进行实验；3) 采用不同的数据选择方法（如随机选择、启发式方法）来构建coreset；4) 评估使用coreset进行卸载后的模型性能，包括卸载效果、通用能力、模式连通性和对越狱攻击的鲁棒性；5) 通过关键词分析，解释coreset效应的内在机制。

关键创新：论文最重要的技术创新点在于发现了LLM卸载基准测试中存在的coreset效应。这一发现颠覆了以往认为需要使用完整遗忘数据集进行卸载的认知。通过识别并利用coreset，可以显著降低LLM卸载的计算成本，提高卸载效率。此外，论文还通过关键词分析，解释了coreset效应的内在机制，为LLM卸载的研究提供了新的视角。

关键设计：论文的关键设计包括：1) 使用多种数据选择方法（如随机选择、启发式方法）来构建coreset，以验证coreset效应的稳健性；2) 使用不同的LLM卸载方法（如NPO和RMU）进行实验，以验证coreset效应的通用性；3) 采用多种评估指标（如卸载效果、通用能力、模式连通性和对越狱攻击的鲁棒性）来全面评估使用coreset进行卸载后的模型性能；4) 通过关键词分析，量化不同关键词对卸载效果的贡献，从而解释coreset效应的内在机制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使只使用5%的随机选择数据作为coreset，也能维持与使用完整遗忘数据集相近的卸载效果。此外，该coreset效应在不同的LLM卸载方法（如NPO和RMU）和不同的数据选择方法中都表现出很强的稳健性。实验还证明了使用coreset进行卸载后的模型在模式连通性和对越狱攻击的鲁棒性方面也表现良好。

🎯 应用场景

该研究成果可应用于各种需要进行LLM卸载的场景，例如：删除模型中包含的敏感信息、消除模型对特定话题的偏见、以及修复模型中的错误知识。通过利用coreset效应，可以显著降低LLM卸载的计算成本，提高卸载效率，从而使得LLM卸载技术能够更广泛地应用于实际场景中。此外，该研究也为LLM卸载基准测试的设计提供了新的思路。

📄 摘要（原文）

Large language model unlearning has become a critical challenge in ensuring safety and controlled model behavior by removing undesired data-model influences from the pretrained model while preserving general utility. Significant recent efforts have been dedicated to developing LLM unlearning benchmarks such as WMDP (Weapons of Mass Destruction Proxy) and MUSE (Machine Unlearning Six-way Evaluation), facilitating standardized unlearning performance assessment and method comparison. Despite their usefulness, we uncover for the first time a novel coreset effect within these benchmarks. Specifically, we find that LLM unlearning achieved with the original (full) forget set can be effectively maintained using a significantly smaller subset (functioning as a "coreset"), e.g., as little as 5% of the forget set, even when selected at random. This suggests that LLM unlearning in these benchmarks can be performed surprisingly easily, even in an extremely low-data regime. We demonstrate that this coreset effect remains strong, regardless of the LLM unlearning method used, such as NPO (Negative Preference Optimization) and RMU (Representation Misdirection Unlearning), the popular ones in these benchmarks. The surprisingly strong coreset effect is also robust across various data selection methods, ranging from random selection to more sophisticated heuristic approaches. We explain the coreset effect in LLM unlearning through a keyword-based perspective, showing that keywords extracted from the forget set alone contribute significantly to unlearning effectiveness and indicating that current unlearning is driven by a compact set of high-impact tokens rather than the entire dataset. We further justify the faithfulness of coreset-unlearned models along additional dimensions, such as mode connectivity and robustness to jailbreaking attacks. Codes are available at https://github.com/OPTML-Group/MU-Coreset.

LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理