Machine Unlearning for Masked Diffusion Language Models
作者: Georu Lee, Seungwon Jeong, Hoki Kim, Jinseong Park, Woojin Lee
分类: cs.CL, cs.AI
发布日期: 2026-05-18
备注: 20 pages, 8 figures, appendix included
🔗 代码/项目: GITHUB
💡 一句话要点
提出Masked Diffusion Unlearning (MDU),用于擦除Masked Diffusion语言模型中的特定知识。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器卸载 Masked Diffusion语言模型 知识擦除 KL散度 隐私保护
📋 核心要点
- 现有LLM卸载方法未充分探索Masked Diffusion语言模型(MDLM)的卸载问题,忽略了其独特的生成和微调机制。
- MDU通过最小化提示条件预测到提示掩码无条件锚点的KL散度,实现MDLM的知识擦除,并使用温度缩放平衡隐私和效用。
- 实验表明,MDU在标准基准和MDLM骨干网络上,相比现有LLM卸载方法,展现出更高的卸载性能。
📝 摘要(中文)
近期的Masked Diffusion语言模型(MDLM),例如LLaDA和Dream,已经达到了与自回归大型语言模型相媲美的性能。与自回归模型顺序生成文本不同,MDLM通过迭代地去噪并行掩码位置来生成文本。在微调期间,MDLM学习从掩码响应状态中恢复响应,该响应状态以提示为条件,从而将其预测从提示掩码的无条件分布转移到提示条件分布。尽管存在这种独特的生成和微调机制,但MDLM的机器卸载在很大程度上仍未被探索。在本文中,我们通过重新审视扩散中的特定知识学习过程,提出了Masked Diffusion Unlearning (MDU),这是MDLM的第一个卸载框架。具体来说,MDU最小化了从提示条件预测到每个掩码响应位置的提示掩码无条件锚点的正向KL散度,并使用温度缩放参数来控制隐私-效用权衡。我们在标准基准和MDLM骨干上的实验结果表明,与现有的LLM卸载方法相比,MDU实现了较高的卸载性能。代码可在https://github.com/leegeoru/MDU获得。
🔬 方法详解
问题定义:论文旨在解决Masked Diffusion语言模型(MDLM)的机器卸载问题。现有的机器卸载方法主要针对自回归LLM设计,无法直接应用于MDLM,因为MDLM具有独特的生成和微调机制,即通过迭代去噪掩码位置来生成文本,并且通过微调将预测从无条件分布转移到条件分布。因此,如何有效地从MDLM中擦除特定知识,同时保持其生成能力,是一个挑战。
核心思路:MDU的核心思路是将知识学习过程视为扩散过程的逆过程,知识擦除则视为反向扩散过程。通过最小化从提示条件预测到提示掩码无条件锚点的KL散度,迫使模型忘记与特定提示相关的知识。这种方法模拟了模型在没有特定知识的情况下应该产生的输出分布。
技术框架:MDU框架主要包含以下几个步骤:1. 给定一个需要卸载的提示(prompt)。2. 使用MDLM生成基于该提示的条件预测。3. 使用相同的提示,但将响应部分进行掩码,生成无条件锚点。4. 计算条件预测和无条件锚点之间的KL散度。5. 使用梯度下降最小化KL散度,从而更新模型参数。温度缩放参数用于控制隐私和效用之间的权衡。
关键创新:MDU的关键创新在于它是第一个针对MDLM设计的卸载框架。它将卸载问题与扩散模型的特性相结合,通过最小化条件预测和无条件锚点之间的KL散度来实现知识擦除。这种方法充分利用了MDLM的生成机制,并能够有效地擦除特定知识,同时保持模型的生成能力。
关键设计:MDU的关键设计包括:1. 使用前向KL散度作为卸载目标,确保卸载后的模型尽可能接近原始的无条件分布。2. 引入温度缩放参数,用于控制卸载的强度和对模型性能的影响。较高的温度可以增强卸载效果,但可能导致更大的性能损失。3. 针对MDLM的特性,在掩码响应位置上进行操作,确保卸载过程能够有效地影响模型的生成行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MDU在标准基准和MDLM骨干网络上,相比现有的LLM卸载方法,实现了更高的卸载性能。具体来说,MDU在卸载特定知识的同时,能够更好地保持模型的生成能力,并且可以通过调整温度缩放参数来平衡隐私和效用。
🎯 应用场景
MDU可应用于需要保护用户隐私的场景,例如,在用户要求删除其个人数据后,可以利用MDU从MDLM中擦除与该用户相关的信息,防止模型泄露用户隐私。此外,MDU还可以用于防止模型生成有害或不当内容,例如,可以擦除模型中与特定敏感话题相关的知识。
📄 摘要(原文)
Recent masked diffusion language models (MDLMs), such as LLaDA and Dream, have achieved performance comparable to autoregressive large language models. Unlike autoregressive models, which generate text sequentially, MDLMs generate text by iteratively denoising masked positions in parallel. During fine-tuning, MDLMs learn to recover responses from masked response states conditioned on a prompt, thereby shifting their predictions from a prompt-masked unconditional distribution toward a prompt-conditional distribution. Despite this distinct generative and fine-tuning mechanism, machine unlearning for MDLMs remains largely unexplored. In this paper, we propose Masked Diffusion Unlearning (MDU), the first unlearning framework for MDLMs, by revisiting the process of learning specific knowledge in terms of diffusion. Specifically, MDU minimizes a forward KL divergence from the prompt-conditional prediction to a prompt-masked unconditional anchor at every masked response position, with a temperature scaling parameter to control the privacy-utility trade-off. Our empirical results on standard benchmarks and MDLM backbones show that MDU achieves high unlearning performance compared to existing LLM unlearning methods. Code is available at https://github.com/leegeoru/MDU.