Forget What Matters, Keep the Rest: Selective Unlearning of Informative Tokens
作者: Seunghee Koh, Sunghyun Baek, Youngdong Kim, Junmo Kim
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-20
备注: Accepted to ACL 2026 Main Conference. 17 pages, 9 figures
💡 一句话要点
提出熵引导的Token权重(ETW)方法,用于大语言模型中信息量Token的选择性遗忘,提升模型效用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 选择性遗忘 模型遗忘 熵引导 Token权重
📋 核心要点
- 现有LLM遗忘方法在token级别上均匀应用损失,忽略了token语义重要性,导致模型效用不必要的降低。
- 论文提出熵引导的Token权重(ETW)方法,利用预测分布的熵作为token信息量的代理,实现选择性遗忘。
- 实验表明,ETW方法在实现更有效遗忘的同时,比现有token级别方法更好地保持了模型效用。
📝 摘要(中文)
在大语言模型(LLMs)中,遗忘已成为对抗恶意行为的一种有前景的保障措施。当遗忘损失在token级别上均匀应用而不考虑语义重要性时,模型效用可能会不必要地降低。最近的研究探索了token级别的损失正则化器,优先考虑信息量大的token,但主要依赖于ground-truth置信度或外部语言解析器,这限制了它们捕获上下文信息或模型整体预测状态的能力。直观地说,像“the”这样的功能词主要起句法作用,并且高度可预测且几乎没有歧义,但信息丰富的词允许多种合理的替代方案,具有更大的不确定性。基于这种直觉,我们提出熵引导的Token权重(ETW),这是一种token级别的遗忘正则化器,它使用预测分布的熵作为token信息量的代理。我们证明,信息量大的token往往具有较高的熵,而结构性token往往具有较低的熵。这种行为使ETW能够实现更有效的遗忘,同时比现有的token级别方法更好地保持模型效用。
🔬 方法详解
问题定义:现有大语言模型的遗忘方法在token级别上采用统一的损失函数,没有区分不同token的重要性。这种做法会导致在遗忘有害信息的同时,也遗忘了大量有用的信息,从而降低了模型的整体效用。现有方法依赖ground-truth置信度或外部语言解析器来确定token的重要性,但这些方法无法充分捕捉上下文信息和模型的预测状态。
核心思路:论文的核心思路是利用token的预测分布的熵来衡量token的信息量。信息量大的token通常具有较高的熵,因为模型对这些token的预测不确定性较高;而结构性token(如“the”)的熵较低,因为模型可以很容易地预测它们。通过对不同熵值的token施加不同的遗忘损失,可以实现选择性遗忘,从而在遗忘有害信息的同时,保留更多有用的信息。
技术框架:ETW方法的核心是一个token级别的遗忘正则化器。该正则化器首先计算每个token的预测分布的熵,然后根据熵值对token的遗忘损失进行加权。具体来说,熵值较高的token会被赋予较高的权重,从而更容易被遗忘;而熵值较低的token会被赋予较低的权重,从而更容易被保留。整个过程可以嵌入到现有的遗忘框架中,作为一个额外的正则化项。
关键创新:ETW方法的关键创新在于使用预测分布的熵作为token信息量的代理。与现有方法相比,这种方法不需要ground-truth信息或外部语言解析器,可以直接从模型的预测结果中获取token的重要性信息。此外,熵可以更好地捕捉上下文信息和模型的预测状态,从而更准确地衡量token的信息量。
关键设计:ETW方法的关键设计包括熵的计算方式和损失函数的加权方式。熵的计算可以使用标准的交叉熵公式。损失函数的加权可以使用一个简单的线性函数,将熵值映射到权重值。具体的参数设置可以根据具体的任务和数据集进行调整。例如,可以设置一个阈值,只有当熵值高于该阈值时,才对token的遗忘损失进行加权。
🖼️ 关键图片
📊 实验亮点
论文提出的ETW方法在多个实验中都取得了显著的性能提升。与现有的token级别遗忘方法相比,ETW方法在实现更有效遗忘的同时,更好地保持了模型的效用。具体来说,ETW方法在遗忘特定信息后,模型在其他任务上的性能下降更小,表明ETW方法能够更好地保留模型中的有用知识。
🎯 应用场景
该研究成果可应用于各种需要对大语言模型进行选择性遗忘的场景,例如:移除模型中的有害信息、修正模型中的错误知识、保护模型中的隐私数据等。通过选择性遗忘,可以更有效地控制模型的行为,提高模型的安全性和可靠性,并降低模型维护的成本。
📄 摘要(原文)
Unlearning in large language models (LLMs) has emerged as a promising safeguard against adversarial behaviors. When the forgetting loss is applied uniformly without considering token-level semantic importance, model utility can be unnecessarily degraded. Recent studies have explored token-wise loss regularizers that prioritize informative tokens, but largely rely on ground-truth confidence or external linguistic parsers, which limits their ability to capture contextual information or the model's overall predictive state. Intuitively, function words like "the" primarily serve syntactic roles and are highly predictable with little ambiguity, but informative words admit multiple plausible alternatives with greater uncertainty. Based on this intuition, we propose Entropy-guided Token Weighting (ETW), a token-level unlearning regularizer that uses entropy of the predictive distribution as a proxy for token informativeness. We demonstrate that informative tokens tend to have higher entropy, whereas structural tokens tend to have lower entropy. This behavior enables ETW to achieve more effective unlearning while better preserving model utility than existing token-level approaches.