CURaTE: Continual Unlearning in Real Time with Ensured Preservation of LLM Knowledge
作者: Seyun Bae, Seokhan Lee, Eunho Yang
分类: cs.CL, cs.LG
发布日期: 2026-04-16
备注: Accepted to Findings of ACL 2026
💡 一句话要点
CURaTE:提出一种支持实时持续卸载并保证LLM知识保留的框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 知识卸载 大型语言模型 句子嵌入 隐私保护
📋 核心要点
- 现有LLM卸载方法无法持续、即时地执行,导致模型效用降低和敏感信息暴露。
- CURaTE通过训练句子嵌入模型,基于输入与遗忘请求的相似度决定响应,实现知识卸载。
- 实验表明,CURaTE比现有方法更有效地卸载知识,并能保持近乎完美的知识保留。
📝 摘要(中文)
大型语言模型(LLM)的预训练数据中无法预先过滤掉所有潜在的问题数据,因此需要在训练后卸载特定知识。现有技术忽略了持续和即时行动的需求,导致随着更新的累积效用降低,以及敏感信息的长期暴露。为了解决这些问题,我们提出了CURaTE(Continual Unlearning in Real Time with Ensured Preservation of LLM Knowledge)。我们的方法首先在数据集上训练一个句子嵌入模型,该数据集旨在形成清晰的决策边界,以确定给定的输入提示是否对应于任何存储的遗忘请求。然后,使用给定输入与遗忘请求的相似性来确定是回答还是返回拒绝响应。我们表明,即使使用如此简单的方法,CURaTE不仅比现有方法实现了更有效的遗忘,而且通过避免修改语言模型参数,它还在任意数量的更新中保持了近乎完美的知识保留,并且是唯一能够实时持续卸载的方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在训练后需要卸载特定知识,但现有方法无法做到持续、实时卸载,并且在卸载过程中容易损害模型原有知识的问题。现有方法的痛点在于需要修改模型参数,导致知识保留率下降,且无法快速响应新的卸载请求。
核心思路:论文的核心思路是不直接修改LLM的参数,而是训练一个独立的句子嵌入模型,用于判断输入是否涉及需要遗忘的知识。通过比较输入与遗忘请求的相似度,决定是正常回答还是拒绝回答,从而实现知识卸载。这样可以避免对LLM本身进行修改,从而保持其原有知识。
技术框架:CURaTE框架主要包含以下几个阶段:1)构建包含遗忘请求的数据集,用于训练句子嵌入模型;2)训练句子嵌入模型,使其能够区分需要遗忘的知识和不需要遗忘的知识;3)接收用户输入,计算输入与遗忘请求的相似度;4)根据相似度判断是否需要遗忘,如果需要则返回拒绝响应,否则正常回答。
关键创新:CURaTE的关键创新在于不修改LLM参数,而是通过训练独立的句子嵌入模型来实现知识卸载。与现有方法相比,CURaTE能够实现实时持续卸载,并且能够保持LLM的知识保留率。
关键设计:CURaTE的关键设计包括:1)构建高质量的遗忘请求数据集,用于训练句子嵌入模型;2)选择合适的句子嵌入模型,例如Sentence-BERT,并进行微调;3)设置合适的相似度阈值,用于判断是否需要遗忘;4)设计拒绝响应策略,避免暴露敏感信息。
🖼️ 关键图片
📊 实验亮点
CURaTE在知识卸载方面优于现有方法,同时保持了近乎完美的知识保留率。由于避免了对LLM参数的修改,CURaTE能够实时响应新的卸载请求,并支持持续学习。实验结果表明,CURaTE在卸载特定知识的同时,对模型原有性能的影响非常小。
🎯 应用场景
CURaTE可应用于各种需要保护用户隐私和数据安全的场景,例如:金融、医疗、法律等领域。它可以帮助LLM快速、有效地卸载不当或过时的知识,避免泄露敏感信息,提高模型的安全性和可靠性。此外,该方法还可以用于持续学习场景,使LLM能够不断适应新的知识和需求,而无需重新训练整个模型。
📄 摘要(原文)
The inability to filter out in advance all potentially problematic data from the pre-training of large language models has given rise to the need for methods for unlearning specific pieces of knowledge after training. Existing techniques overlook the need for continuous and immediate action, causing them to suffer from degraded utility as updates accumulate and protracted exposure of sensitive information. To address these issues, we propose Continual Unlearning in Real Time with Ensured Preservation of LLM Knowledge (CURaTE). Our method begins by training a sentence embedding model on a dataset designed to enable the formation of sharp decision boundaries for determining whether a given input prompt corresponds to any stored forget requests. The similarity of a given input to the forget requests is then used to determine whether to answer or return a refusal response. We show that even with such a simple approach, not only does CURaTE achieve more effective forgetting than existing methods, but by avoiding modification of the language model parameters, it also maintains near perfect knowledge preservation over any number of updates and is the only method capable of continual unlearning in real-time.