Don't Forget It! Conditional Sparse Autoencoder Clamping Works for Unlearning
作者: Matthew Khoriaty, Andrii Shportko, Gustavo Mercier, Zach Wood-Doughty
分类: cs.LG, cs.AI
发布日期: 2025-03-14
备注: 6 pages, 6 figures
💡 一句话要点
基于条件稀疏自编码器钳制的LLM知识遗忘技术
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识遗忘 稀疏自编码器 大型语言模型 特征引导 安全AI
📋 核心要点
- 大型语言模型存在潜在风险,例如掌握危险知识可能被滥用,但其内部机制难以理解和控制。
- 利用稀疏自编码器(SAE)识别LLM内部的不良概念,并通过特征引导减少模型对有害问题的响应。
- 实验表明,该方法能够在减少模型回答有害问题的能力的同时,保持其在无害查询上的性能。
📝 摘要(中文)
大型语言模型(LLM)能力的快速发展带来了巨大的潜力,但也带来了新的风险。例如,掌握生物武器、高级化学或网络攻击知识的LLM如果被滥用或发生故障,可能会造成危害。由于LLM的近乎黑盒特性,对其内部机制的直观理解仍然是一个开放的研究问题,这阻碍了开发者轻松控制模型行为和能力。稀疏自编码器(SAE)的出现为揭示LLM内部概念表示提供了一种潜在方法,并允许开发者通过直接修改隐藏层激活来引导模型输出。本文利用SAE识别gemma-2-2b模型内部来自大规模杀伤性武器代理(WMDP)数据集的不良概念,并使用特征引导来降低模型回答有害问题的能力,同时保持其在无害查询上的性能。我们的结果重新燃起了基于SAE的显式知识遗忘技术的可行性。
🔬 方法详解
问题定义:大型语言模型(LLM)可能包含有害知识,例如关于生物武器的信息。直接修改LLM以消除这些知识非常困难,因为LLM的内部运作机制复杂且难以解释。现有的知识遗忘方法可能不够精确,或者会损害模型在其他任务上的性能。因此,需要一种有效的方法来选择性地消除LLM中的有害知识,同时保持其通用能力。
核心思路:利用稀疏自编码器(SAE)来识别LLM内部表示有害概念的神经元。SAE通过学习LLM内部激活的稀疏表示,可以揭示哪些神经元对特定概念(例如,与生物武器相关的概念)最为敏感。然后,通过“钳制”(clamping)这些神经元的激活,可以有效地消除LLM对这些有害概念的响应。条件稀疏自编码器(Conditional SAE)允许更精细的控制,只在特定条件下(例如,当模型被问及有害问题时)才进行钳制。
技术框架:该方法包含以下几个主要步骤:1) 使用大规模杀伤性武器代理(WMDP)数据集训练SAE,使其能够识别gemma-2-2b模型内部与有害概念相关的神经元。2) 设计特征引导机制,根据SAE的输出,选择性地钳制LLM中与有害概念相关的神经元的激活。3) 在有害问题和无害问题上评估LLM的性能,以验证知识遗忘的效果和通用能力的保持。
关键创新:该方法的关键创新在于使用条件稀疏自编码器(Conditional SAE)进行知识遗忘。与传统的知识遗忘方法相比,SAE能够更精确地识别和消除LLM中的有害知识,同时最大限度地减少对模型通用能力的损害。此外,特征引导机制允许根据上下文选择性地钳制神经元,从而进一步提高了知识遗忘的精度和效率。
关键设计:SAE的训练目标是最小化重构误差,同时鼓励激活的稀疏性。这可以通过添加L1正则化项到损失函数中来实现。特征引导机制的设计需要仔细考虑如何选择性地钳制神经元。一种常见的方法是设置一个阈值,只有当神经元的激活超过该阈值时才进行钳制。阈值的选择需要根据实验结果进行调整,以达到最佳的知识遗忘效果和通用能力保持。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地降低gemma-2-2b模型回答有害问题的能力,同时保持其在无害查询上的性能。具体来说,在WMDP数据集上,模型回答有害问题的准确率显著降低,而回答无害问题的准确率几乎没有下降。这表明该方法能够在消除有害知识的同时,最大限度地保持模型的通用能力。
🎯 应用场景
该研究成果可应用于安全敏感的大型语言模型,例如涉及医疗、金融或法律领域的模型。通过选择性地消除模型中的有害或不准确知识,可以提高模型的安全性和可靠性,防止其被用于恶意目的。此外,该技术还可以用于个性化语言模型,根据用户的需求和偏好,定制模型的知识和能力。
📄 摘要(原文)
Recent developments in Large Language Model (LLM) capabilities have brought great potential but also posed new risks. For example, LLMs with knowledge of bioweapons, advanced chemistry, or cyberattacks could cause violence if placed in the wrong hands or during malfunctions. Because of their nature as near-black boxes, intuitive interpretation of LLM internals remains an open research question, preventing developers from easily controlling model behavior and capabilities. The use of Sparse Autoencoders (SAEs) has recently emerged as a potential method of unraveling representations of concepts in LLMs internals, and has allowed developers to steer model outputs by directly modifying the hidden activations. In this paper, we use SAEs to identify unwanted concepts from the Weapons of Mass Destruction Proxy (WMDP) dataset within gemma-2-2b internals and use feature steering to reduce the model's ability to answer harmful questions while retaining its performance on harmless queries. Our results bring back optimism to the viability of SAE-based explicit knowledge unlearning techniques.