Unlearning What Matters: Token-Level Attribution for Precise Language Model Unlearning

作者: Jiawei Wu, DouDou Zhou

分类: cs.CL

发布日期: 2026-05-01

备注: 17 pages, 2 figures

💡 一句话要点

提出TokenUnlearn，通过token级别归因实现语言模型精准不可学习，提升遗忘效果和效用保持。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器不可学习 语言模型 token级别归因 隐私保护 知识遗忘

📋 核心要点

现有机器不可学习方法在序列级别进行操作，对所有token进行统一更新，忽略了token重要性的差异，导致梯度噪声和效用下降。
TokenUnlearn通过token级别的归因框架，识别并选择性地针对关键token进行不可学习，从而提高遗忘的精确性。
实验结果表明，TokenUnlearn在遗忘有效性和效用保持方面均优于序列级别的基线方法，证明了其有效性。

📝 摘要（中文）

机器不可学习已成为解决大型语言模型（LLM）中隐私、安全和监管问题的关键能力。现有方法在序列级别操作，对所有token应用统一更新，但实际上只有一部分token编码了需要移除的知识。这引入了梯度噪声，降低了效用，并导致次优的遗忘效果。我们提出了TokenUnlearn，一个token级别的归因框架，用于识别和选择性地针对关键token。我们的方法结合了通过掩码实现的知识感知信号和熵感知信号，从而产生重要性分数，用于精确的token选择。我们开发了两种互补策略：硬选择，仅对高重要性token应用不可学习；软加权，基于重要性分数调节梯度贡献。两者都将现有方法扩展到token级别变体。理论分析表明，token级别选择提高了梯度信噪比。在TOFU和WMDP基准测试中，跨三种模型架构的实验表明，在遗忘有效性和效用保持方面，相对于序列级别基线，TokenUnlearn均实现了持续改进。

🔬 方法详解

问题定义：现有语言模型不可学习方法主要在序列级别进行操作，即对整个输入序列的所有token进行统一的更新。然而，并非所有token都包含需要遗忘的知识，这种一刀切的方式引入了不必要的梯度噪声，降低了模型的效用，并导致次优的遗忘效果。因此，如何精准地定位并仅针对包含目标知识的token进行不可学习是亟待解决的问题。

核心思路：TokenUnlearn的核心思路是利用token级别的归因方法，为每个token计算一个重要性分数，该分数反映了该token对模型存储目标知识的贡献程度。然后，根据这些重要性分数，选择性地对重要性高的token进行不可学习，或者根据重要性分数对梯度进行加权，从而实现更精确和高效的不可学习。这样设计的目的是减少梯度噪声，提高遗忘效率，并更好地保持模型的效用。

技术框架：TokenUnlearn框架主要包含以下几个阶段：1) 重要性评分：使用知识感知信号（通过掩码）和熵感知信号为每个token计算重要性分数。知识感知信号衡量token对特定知识的影响，熵感知信号衡量token的不确定性。2) Token选择/加权：根据计算出的重要性分数，采用两种策略：硬选择，即只选择重要性最高的token进行不可学习；软加权，即根据重要性分数对梯度进行加权，重要性越高的token，其梯度贡献越大。3) 不可学习：使用现有的不可学习算法，例如梯度上升等，对选定的token或加权后的梯度进行更新，以达到遗忘目标知识的目的。

关键创新：TokenUnlearn最关键的创新在于提出了token级别的归因方法，并将其应用于机器不可学习任务中。与传统的序列级别方法相比，TokenUnlearn能够更精确地定位需要遗忘的知识，从而减少梯度噪声，提高遗忘效率，并更好地保持模型的效用。此外，结合知识感知和熵感知信号来计算token重要性分数也是一个创新点，能够更全面地评估token的重要性。

关键设计：在重要性评分方面，论文使用了两种信号：知识感知信号和熵感知信号。知识感知信号通过掩码的方式实现，即通过mask掉某个token，观察模型输出的变化，从而衡量该token对知识的影响。熵感知信号则通过计算模型输出的熵来衡量token的不确定性。在token选择/加权方面，论文提出了两种策略：硬选择和软加权。硬选择需要设置一个阈值，选择重要性分数高于阈值的token。软加权则需要选择一个合适的加权函数，将重要性分数映射到梯度权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TokenUnlearn在TOFU和WMDP基准测试中，相对于序列级别的基线方法，在遗忘有效性和效用保持方面均实现了显著提升。例如，在某些任务上，TokenUnlearn可以将遗忘效果提高10%以上，同时保持与基线方法相当甚至更高的模型效用。

🎯 应用场景

TokenUnlearn可应用于各种需要保护用户隐私或遵守法规的场景，例如：从大型语言模型中移除个人身份信息（PII）、有害内容或不准确的事实性知识。该技术有助于构建更安全、更可靠、更负责任的AI系统，并促进AI技术在敏感领域的应用。

📄 摘要（原文）

Machine unlearning has emerged as a critical capability for addressing privacy, safety, and regulatory concerns in large language models (LLMs). Existing methods operate at the sequence level, applying uniform updates across all tokens despite only a subset encoding the knowledge targeted for removal. This introduces gradient noise, degrades utility, and leads to suboptimal forgetting. We propose TokenUnlearn, a token-level attribution framework that identifies and selectively targets critical tokens. Our approach combines knowledge-aware signals via masking, and entropy-aware signals to yield importance scores for precise token selection. We develop two complementary strategies: hard selection, applying unlearning only to high-importance tokens, and soft weighting, modulating gradient contributions based on importance scores. Both extend existing methods to token-level variants. Theoretical analysis shows token-level selection improves gradient signal-to-noise ratio. Experiments on TOFU and WMDP benchmarks across three model architectures demonstrate consistent improvements over sequence-level baselines in both forgetting effectiveness and utility preservation.

Unlearning What Matters: Token-Level Attribution for Precise Language Model Unlearning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理