RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair
作者: Jagadeesh Rachapudi, Pranav Singh, Ritali Vatsi, Praful Hambarde, Amit Shukla
分类: cs.AI, cs.CL
发布日期: 2026-04-14
💡 一句话要点
RePAIR:通过提示感知的模型修复实现交互式机器遗忘
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器遗忘 交互式学习 模型修复 提示工程 大型语言模型
📋 核心要点
- 现有机器遗忘方法依赖服务提供商,用户无法直接控制个人数据在模型中的遗忘,缺乏用户自主性。
- RePAIR框架通过监控模型检测遗忘意图,外科医生模型生成修复过程,患者模型自主更新参数,实现用户交互式遗忘。
- RePAIR利用STAMP方法,通过伪逆更新MLP激活,实现高效的单样本遗忘,并在实验中优于现有基线方法。
📝 摘要(中文)
大型语言模型(LLM)在预训练期间不可避免地吸收有害知识、错误信息和个人数据,且缺乏选择性移除机制。机器遗忘提供了一种原则性解决方案,但现有方法以服务提供商为中心,需要重训练流程、精选的保留数据集以及模型服务提供商(MSP)的直接干预,从而排除了最终用户控制自身数据的能力。我们引入了交互式机器遗忘(IMU),这是一种用户可以在推理时通过自然语言指示LLM忘记目标知识的新范式。为了实现IMU,我们提出了RePAIR,一个提示感知的模型修复框架,包括(i)用于遗忘意图检测的监控模型,(ii)用于生成修复过程的外科医生模型,以及(iii)自主更新参数的患者模型。RePAIR的核心是STAMP,一种免训练的单样本遗忘方法,通过闭式伪逆更新将MLP激活重定向到拒绝子空间。其低秩变体将计算复杂度从O(d^3)降低到O(r^3 + r^2 * d),从而实现高效的设备端遗忘,速度比基于训练的基线快约3倍。在有害知识抑制、错误信息纠正和个人数据擦除方面的广泛实验表明,RePAIR实现了接近于零的遗忘分数(Acc_f = 0.00, F-RL = 0.00),同时保持了模型效用(Acc_r高达84.47, R-RL高达0.88),优于六个最先进的基线。这些结果表明,RePAIR是一个有效且实用的用户驱动模型编辑框架,促进了对学习知识的透明和设备端控制,并具有扩展到多模态基础模型的潜力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中用户无法自主控制个人数据遗忘的问题。现有机器遗忘方法通常需要模型提供商进行重训练或修改模型,用户无法直接干预,存在隐私和控制权问题。
核心思路:论文的核心思路是构建一个用户可交互的机器遗忘框架,允许用户通过自然语言指令指示模型忘记特定知识。通过提示感知的模型修复,实现对模型参数的精确修改,从而达到遗忘目标知识的目的。
技术框架:RePAIR框架包含三个主要模块:(1)监控模型(Watchdog Model):用于检测用户的遗忘意图,判断用户提出的遗忘请求是否有效。(2)外科医生模型(Surgeon Model):根据遗忘意图,生成修复过程,即确定需要修改的模型参数和修改方式。(3)患者模型(Patient Model):接收外科医生模型生成的修复指令,自主更新模型参数,实现知识遗忘。框架的核心是STAMP方法,用于高效地修改模型参数。
关键创新:RePAIR的关键创新在于提出了STAMP(Steering Through Activation Manipulation with PseudoInverse)方法,这是一种免训练的单样本遗忘方法。STAMP通过闭式伪逆更新MLP激活,将激活重定向到拒绝子空间,从而实现知识遗忘。与传统的重训练方法相比,STAMP无需大量数据和计算资源,能够实现高效的设备端遗忘。
关键设计:STAMP方法的核心是利用伪逆来计算激活修改量。具体来说,对于给定的遗忘目标,STAMP首先确定需要修改的MLP层,然后计算该层激活的伪逆,并利用伪逆来计算激活修改量。通过将激活修改量添加到原始激活中,可以将激活重定向到拒绝子空间,从而实现知识遗忘。为了降低计算复杂度,论文还提出了STAMP的低秩变体,将计算复杂度从O(d^3)降低到O(r^3 + r^2 * d),其中d是激活维度,r是低秩近似的秩。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RePAIR框架在有害知识抑制、错误信息纠正和个人数据擦除方面均取得了显著效果,实现了接近于零的遗忘分数(Acc_f = 0.00, F-RL = 0.00),同时保持了较高的模型效用(Acc_r高达84.47, R-RL高达0.88),并且速度比基于训练的基线快约3倍,证明了RePAIR框架的有效性和实用性。
🎯 应用场景
RePAIR框架可应用于各种需要用户自主控制数据遗忘的场景,例如:个人隐私保护、错误信息纠正、有害知识过滤等。该研究有助于提升用户对AI模型的信任度,促进AI技术的健康发展,并为多模态基础模型的安全应用提供借鉴。
📄 摘要(原文)
Large language models (LLMs) inherently absorb harmful knowledge, misinformation, and personal data during pretraining on large-scale web corpora, with no native mechanism for selective removal. While machine unlearning offers a principled solution, existing approaches are provider-centric, requiring retraining pipelines, curated retain datasets, and direct intervention by model service providers (MSPs), thereby excluding end users from controlling their own data. We introduce Interactive Machine Unlearning (IMU), a new paradigm in which users can instruct LLMs to forget targeted knowledge through natural language at inference time. To realize IMU, we propose RePAIR, a prompt-aware model repair framework comprising (i) a watchdog model for unlearning intent detection, (ii) a surgeon model for generating repair procedures, and (iii) a patient model whose parameters are updated autonomously. At the core of RePAIR, we develop Steering Through Activation Manipulation with PseudoInverse (STAMP), a training-free, single-sample unlearning method that redirects MLP activations toward a refusal subspace via closed-form pseudoinverse updates. Its low-rank variant reduces computational complexity from O(d^3) to O(r^3 + r^2 * d), enabling efficient on-device unlearning with up to ~3x speedup over training-based baselines. Extensive experiments across harmful knowledge suppression, misinformation correction, and personal data erasure demonstrate that RePAIR achieves near-zero forget scores (Acc_f = 0.00, F-RL = 0.00) while preserving model utility (Acc_r up to 84.47, R-RL up to 0.88), outperforming six state-of-the-art baselines. These results establish RePAIR as an effective and practical framework for user-driven model editing, advancing transparent and on-device control over learned knowledge, with potential extensions to multimodal foundation models.