Model Unlearning via Sparse Autoencoder Subspace Guided Projections
作者: Xu Wang, Zihao Li, Benyou Wang, Yan Hu, Difan Zou
分类: cs.CL, cs.LG
发布日期: 2025-05-30
💡 一句话要点
提出SSPU,利用稀疏自编码器子空间投影实现大模型的可解释、鲁棒性知识遗忘。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型遗忘 稀疏自编码器 子空间投影 知识移除 对抗鲁棒性 可解释性 大语言模型
📋 核心要点
- 现有模型遗忘方法缺乏可解释性,且难以防御对抗性攻击,导致知识移除不彻底或影响模型通用能力。
- SSPU利用稀疏自编码器(SAE)提取特征,构建子空间,指导模型参数更新,实现精确且鲁棒的知识遗忘。
- 实验表明,SSPU在降低有害知识准确率和提高对抗鲁棒性方面优于现有方法,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLMs)存储了海量信息,这使其功能强大,但也引发了在需要选择性知识移除时的隐私和安全问题。现有的遗忘策略,从基于梯度的微调和模型编辑到稀疏自编码器(SAE)引导,要么缺乏可解释性,要么无法提供针对对抗性提示的强大防御。我们提出了SAE引导的子空间投影遗忘(SSPU),这是一个新颖的框架,它利用SAE特征来驱动模型参数空间中的有针对性的更新,从而实现精确、可解释和鲁棒的遗忘。SSPU的三阶段流程执行数据驱动的层和特征选择,通过QR分解构建子空间,以及约束优化,将激活控制到“不相关”的子空间中,同时保留已保留的知识。总的来说,我们使用SAE特征来构建一个子空间,该子空间监督遗忘,细化损失并添加正则化项以指导可解释的参数更新。在WMDP-Cyber遗忘集和三个效用基准(MMLU、TruthfulQA、GSM8K)上的实验表明,与最强的基线相比,SSPU将有害知识的准确率降低了3.22%。它还提高了对抗鲁棒性,降低了在越狱提示下的恶意准确率。我们的发现揭示了先前遗忘方法的局限性,并展示了可解释的子空间引导优化如何实现鲁棒、可控的模型行为。
🔬 方法详解
问题定义:大型语言模型(LLMs)存储了大量信息,但当需要移除特定知识时,现有的遗忘方法(如微调、模型编辑或SAE引导)存在局限性。它们要么缺乏可解释性,难以理解哪些参数被修改以及为何修改,要么容易受到对抗性攻击,导致遗忘效果不佳或影响模型的整体性能。因此,如何实现精确、可解释且鲁棒的知识遗忘是一个关键问题。
核心思路:SSPU的核心思路是利用稀疏自编码器(SAE)提取模型内部的特征表示,并基于这些特征构建一个“不相关”的子空间。通过将模型的激活约束在这个子空间内,可以有效地抑制模型对遗忘知识的响应,同时保留模型对其他知识的理解。这种方法的核心在于利用SAE的可解释性来指导参数更新,从而实现更精确和可控的遗忘。
技术框架:SSPU包含三个主要阶段:1) 数据驱动的层和特征选择:根据数据选择需要进行遗忘的层和特征。2) 子空间构建:利用QR分解,基于SAE特征构建一个“不相关”的子空间。3) 约束优化:通过优化模型参数,将激活约束到“不相关”的子空间中,同时使用正则化项来保留已保留的知识。整个流程通过SAE特征构建的子空间来监督遗忘过程,并细化损失函数,指导参数更新。
关键创新:SSPU的关键创新在于利用SAE特征构建子空间,并将其作为遗忘过程的监督信号。与传统的基于梯度的方法不同,SSPU通过显式地控制模型激活,实现了更精确和可解释的知识遗忘。此外,SSPU还通过正则化项来平衡遗忘和知识保留,从而避免了过度遗忘的问题。
关键设计:SSPU的关键设计包括:1) 使用SAE提取特征,提供可解释的特征表示。2) 使用QR分解构建子空间,确保子空间的正交性。3) 使用约束优化来控制模型激活,实现精确的知识遗忘。4) 使用正则化项来平衡遗忘和知识保留。损失函数包含一个遗忘损失项和一个知识保留损失项,前者鼓励模型将激活投影到“不相关”的子空间,后者则鼓励模型保留已有的知识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SSPU在WMDP-Cyber遗忘集上,相比最强基线,有害知识准确率降低了3.22%。同时,SSPU提高了对抗鲁棒性,降低了在越狱提示下的恶意准确率。这些结果验证了SSPU在实现精确、鲁棒和可解释的知识遗忘方面的有效性。
🎯 应用场景
SSPU可应用于各种需要选择性知识移除的场景,例如:1) 保护用户隐私,移除模型中存储的个人信息。2) 过滤有害信息,防止模型生成不安全或不适当的内容。3) 模型定制,根据特定需求移除或修改模型中的知识。该研究有助于提升大模型的安全性和可控性,促进其在各个领域的应用。
📄 摘要(原文)
Large language models (LLMs) store vast amounts of information, making them powerful yet raising privacy and safety concerns when selective knowledge removal is required. Existing unlearning strategies, ranging from gradient-based fine-tuning and model editing to sparse autoencoder (SAE) steering, either lack interpretability or fail to provide a robust defense against adversarial prompts. We propose SAE-Guided Subspace Projection Unlearning (SSPU), a novel framework that leverages SAE features to drive targeted updates in the model's parameter space, enabling precise, interpretable, and robust unlearning. SSPU's three-stage pipeline performs data-driven layer and feature selection, subspace construction via QR decomposition, and constrained optimization that controls activations into an "irrelevant" subspace while preserving retained knowledge. Overall, we use SAE features to construct a subspace that supervises unlearning, refining the loss and adding a regularization term to guide interpretable parameter updates. In experiments on the WMDP-Cyber forget set and three utility benchmarks (MMLU, TruthfulQA, GSM8K), SSPU reduces harmful knowledge accuracy by 3.22% compared to the strongest baseline. It also improves adversarial robustness, lowering malicious accuracy under jailbreak prompts compared to baselines. Our findings expose the limitations of prior unlearning methods and demonstrate how interpretable subspace-guided optimization can achieve robust, controllable model behavior.