From Anchors to Supervision: Memory-Graph Guided Corpus-Free Unlearning for Large Language Models

📄 arXiv: 2604.13777v1 📥 PDF

作者: Wenxuan Li, Zhenfei Zhang, Mi Zhang, Geng Hong, Mi Wen, Xiaoyu You, Min Yang

分类: cs.CL, cs.AI

发布日期: 2026-04-15

备注: 15 pages, appendix included


💡 一句话要点

提出MAGE框架,通过记忆图引导的无语料库卸载,解决大语言模型的信息遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 机器卸载 无语料库学习 记忆图 隐私保护

📋 核心要点

  1. 现有机器卸载方法依赖用户提供的遗忘集,存在审计困难、易受攻击等问题。
  2. MAGE框架仅需用户提供少量锚点信息,即可自动生成卸载所需的监督信号。
  3. 实验表明,MAGE在保证模型效用的前提下,实现了与外部参考监督相当的卸载性能。

📝 摘要(中文)

大型语言模型(LLMs)可能记忆敏感或受版权保护的内容,引发严重的隐私和法律问题。虽然机器卸载已成为一种潜在的补救措施,但目前的方法依赖于用户提供的遗忘集,使得卸载请求难以审计,并将系统暴露于二次泄漏和恶意滥用。我们提出了MAGE,一个记忆图引导的擦除框架,用于用户最小化的、无语料库的卸载。仅给定一个标识目标实体的轻量级用户锚点,MAGE探测目标LLM以恢复与目标相关的记忆,将其组织成一个加权局部记忆图,并合成用于卸载的范围监督。MAGE是模型无关的,可以插入到标准的卸载方法中,并且不需要访问原始训练语料库。在TOFU和RWKU两个基准测试上的实验表明,MAGE的自我生成的监督实现了与使用外部参考生成的监督相当的有效卸载性能,同时保持了整体效用。这些结果支持由最小锚点驱动的实用且可审计的卸载工作流程,而不是用户提供的遗忘语料库。

🔬 方法详解

问题定义:大型语言模型存在记忆敏感或受版权保护内容的问题,传统的机器卸载方法依赖于用户提供的遗忘数据集,这使得卸载过程难以审计,并且容易受到恶意用户的攻击,例如通过构造特定的遗忘数据来降低模型的性能。因此,如何在不依赖大量用户提供数据的情况下,实现安全有效的模型卸载是一个重要的挑战。

核心思路:MAGE的核心思路是利用少量的用户锚点信息,通过探测目标LLM来恢复与目标相关的记忆,并将这些记忆组织成一个加权局部记忆图。然后,利用这个记忆图来合成用于卸载的监督信号。这种方法避免了对大量用户提供数据的依赖,从而提高了卸载过程的安全性和可审计性。

技术框架:MAGE框架主要包含三个阶段:1) 记忆恢复:利用用户提供的锚点信息,通过查询LLM来恢复与目标相关的记忆。2) 记忆图构建:将恢复的记忆组织成一个加权局部记忆图,其中节点表示记忆,边表示记忆之间的关系。3) 监督合成:利用记忆图来合成用于卸载的监督信号,例如,可以生成与目标记忆相反的训练数据。

关键创新:MAGE的关键创新在于它提出了一种无语料库的卸载方法,该方法仅依赖于少量的用户锚点信息,而不需要访问原始训练语料库或用户提供的遗忘数据集。此外,MAGE还提出了一种基于记忆图的监督合成方法,该方法可以有效地利用恢复的记忆来生成用于卸载的监督信号。

关键设计:MAGE框架中,记忆图的构建方式至关重要,节点权重可以根据LLM对记忆的置信度来设置,边的权重可以根据记忆之间的语义相似度来设置。监督信号的合成可以采用多种方式,例如,可以生成与目标记忆相反的文本,或者可以调整LLM的参数以降低其对目标记忆的置信度。具体的损失函数需要根据所使用的卸载方法进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAGE在TOFU和RWKU两个基准测试上取得了与外部参考监督相当的卸载性能,同时保持了整体模型效用。具体来说,MAGE在卸载目标记忆的同时,对模型在其他任务上的性能影响较小,证明了其有效性和实用性。此外,实验还验证了MAGE对不同LLM的适用性,表明其具有良好的模型无关性。

🎯 应用场景

MAGE框架可应用于各种需要保护用户隐私或遵守版权法规的场景,例如,可以用于从LLM中删除敏感的个人信息、受版权保护的文本或有害内容。该方法还可以用于提高LLM的安全性,防止其被用于生成恶意内容或传播虚假信息。此外,MAGE的无语料库特性使其在数据受限或难以获取的场景中具有重要的应用价值。

📄 摘要(原文)

Large language models (LLMs) may memorize sensitive or copyrighted content, raising significant privacy and legal concerns. While machine unlearning has emerged as a potential remedy, prevailing paradigms rely on user-provided forget sets, making unlearning requests difficult to audit and exposing systems to secondary leakage and malicious abuse. We propose MAGE, a Memory-grAph Guided Erasure framework for user-minimized, corpus-free unlearning. Given only a lightweight user anchor that identifies a target entity, MAGE probes the target LLM to recover target-related memorization, organizes it into a weighted local memory graph, and synthesizes scoped supervision for unlearning. MAGE is model-agnostic, can be plugged into standard unlearning methods, and requires no access to the original training corpus. Experiments on two benchmarks, TOFU and RWKU, demonstrate that MAGE's self-generated supervision achieves effective unlearning performance comparable to supervision generated with external reference, while preserving overall utility. These results support a practical and auditable unlearning workflow driven by minimal anchors rather than user-supplied forget corpora.