Unlearning What Matters: Token-Level Attribution for Precise Language Model Unlearning
作者: Jiawei Wu, DouDou Zhou
分类: cs.CL
发布日期: 2026-05-01
备注: 17 pages, 2 figures
💡 一句话要点
提出TokenUnlearn,通过token级别归因实现语言模型精准不可学习,提升遗忘效果和效用保持。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器不可学习 语言模型 token级别归因 隐私保护 知识遗忘
📋 核心要点
- 现有机器不可学习方法在序列级别进行操作,对所有token进行统一更新,忽略了token重要性的差异,导致梯度噪声和效用下降。
- TokenUnlearn通过token级别的归因框架,识别并选择性地针对关键token进行不可学习,从而提高遗忘的精确性。
- 实验结果表明,TokenUnlearn在遗忘有效性和效用保持方面均优于序列级别的基线方法,证明了其有效性。
📝 摘要(中文)
机器不可学习已成为解决大型语言模型(LLM)中隐私、安全和监管问题的关键能力。现有方法在序列级别操作,对所有token应用统一更新,但实际上只有一部分token编码了需要移除的知识。这引入了梯度噪声,降低了效用,并导致次优的遗忘效果。我们提出了TokenUnlearn,一个token级别的归因框架,用于识别和选择性地针对关键token。我们的方法结合了通过掩码实现的知识感知信号和熵感知信号,从而产生重要性分数,用于精确的token选择。我们开发了两种互补策略:硬选择,仅对高重要性token应用不可学习;软加权,基于重要性分数调节梯度贡献。两者都将现有方法扩展到token级别变体。理论分析表明,token级别选择提高了梯度信噪比。在TOFU和WMDP基准测试中,跨三种模型架构的实验表明,在遗忘有效性和效用保持方面,相对于序列级别基线,TokenUnlearn均实现了持续改进。
🔬 方法详解
问题定义:现有语言模型不可学习方法主要在序列级别进行操作,即对整个输入序列的所有token进行统一的更新。然而,并非所有token都包含需要遗忘的知识,这种一刀切的方式引入了不必要的梯度噪声,降低了模型的效用,并导致次优的遗忘效果。因此,如何精准地定位并仅针对包含目标知识的token进行不可学习是亟待解决的问题。
核心思路:TokenUnlearn的核心思路是利用token级别的归因方法,为每个token计算一个重要性分数,该分数反映了该token对模型存储目标知识的贡献程度。然后,根据这些重要性分数,选择性地对重要性高的token进行不可学习,或者根据重要性分数对梯度进行加权,从而实现更精确和高效的不可学习。这样设计的目的是减少梯度噪声,提高遗忘效率,并更好地保持模型的效用。
技术框架:TokenUnlearn框架主要包含以下几个阶段:1) 重要性评分:使用知识感知信号(通过掩码)和熵感知信号为每个token计算重要性分数。知识感知信号衡量token对特定知识的影响,熵感知信号衡量token的不确定性。2) Token选择/加权:根据计算出的重要性分数,采用两种策略:硬选择,即只选择重要性最高的token进行不可学习;软加权,即根据重要性分数对梯度进行加权,重要性越高的token,其梯度贡献越大。3) 不可学习:使用现有的不可学习算法,例如梯度上升等,对选定的token或加权后的梯度进行更新,以达到遗忘目标知识的目的。
关键创新:TokenUnlearn最关键的创新在于提出了token级别的归因方法,并将其应用于机器不可学习任务中。与传统的序列级别方法相比,TokenUnlearn能够更精确地定位需要遗忘的知识,从而减少梯度噪声,提高遗忘效率,并更好地保持模型的效用。此外,结合知识感知和熵感知信号来计算token重要性分数也是一个创新点,能够更全面地评估token的重要性。
关键设计:在重要性评分方面,论文使用了两种信号:知识感知信号和熵感知信号。知识感知信号通过掩码的方式实现,即通过mask掉某个token,观察模型输出的变化,从而衡量该token对知识的影响。熵感知信号则通过计算模型输出的熵来衡量token的不确定性。在token选择/加权方面,论文提出了两种策略:硬选择和软加权。硬选择需要设置一个阈值,选择重要性分数高于阈值的token。软加权则需要选择一个合适的加权函数,将重要性分数映射到梯度权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TokenUnlearn在TOFU和WMDP基准测试中,相对于序列级别的基线方法,在遗忘有效性和效用保持方面均实现了显著提升。例如,在某些任务上,TokenUnlearn可以将遗忘效果提高10%以上,同时保持与基线方法相当甚至更高的模型效用。
🎯 应用场景
TokenUnlearn可应用于各种需要保护用户隐私或遵守法规的场景,例如:从大型语言模型中移除个人身份信息(PII)、有害内容或不准确的事实性知识。该技术有助于构建更安全、更可靠、更负责任的AI系统,并促进AI技术在敏感领域的应用。
📄 摘要(原文)
Machine unlearning has emerged as a critical capability for addressing privacy, safety, and regulatory concerns in large language models (LLMs). Existing methods operate at the sequence level, applying uniform updates across all tokens despite only a subset encoding the knowledge targeted for removal. This introduces gradient noise, degrades utility, and leads to suboptimal forgetting. We propose TokenUnlearn, a token-level attribution framework that identifies and selectively targets critical tokens. Our approach combines knowledge-aware signals via masking, and entropy-aware signals to yield importance scores for precise token selection. We develop two complementary strategies: hard selection, applying unlearning only to high-importance tokens, and soft weighting, modulating gradient contributions based on importance scores. Both extend existing methods to token-level variants. Theoretical analysis shows token-level selection improves gradient signal-to-noise ratio. Experiments on TOFU and WMDP benchmarks across three model architectures demonstrate consistent improvements over sequence-level baselines in both forgetting effectiveness and utility preservation.