SCAN: Sparse Circuit Anchor Interpretable Neuron for Lifelong Knowledge Editing
作者: Yuhuan Liu, Haitian Zhong, Xinyuan Xia, Qiang Liu, Shu Wu, Liang Wang
分类: cs.AI
发布日期: 2026-03-16
备注: 21pages, 7figures
💡 一句话要点
提出SCAN:基于稀疏电路锚定神经元的终身知识编辑框架,解决LLM灾难性遗忘问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识编辑 终身学习 稀疏编辑 大型语言模型 灾难性遗忘
📋 核心要点
- 现有LLM知识编辑方法采用密集参数干预,易导致灾难性遗忘,影响模型原有能力。
- SCAN通过稀疏转码器构建知识电路,实现机制感知的编辑,从而避免对无关知识的干扰。
- 实验表明,SCAN在大量连续编辑后仍能保持模型性能,优于现有方法,避免模型崩溃。
📝 摘要(中文)
大型语言模型(LLMs)在连续知识编辑过程中经常遭受灾难性遗忘和模型崩溃。这种脆弱性源于流行的密集编辑范式,该范式将模型视为黑盒,并依赖于粗粒度的参数干预,这不可避免地会扰乱已保留的知识。为了解决这个问题,我们提出了SCAN(一种基于稀疏电路锚定神经元的稀疏编辑框架),它通过构建基于稀疏转码器的知识电路,将编辑转化为一种机制感知的操作。在Gemma2、Qwen3和Llama3.1上,针对CounterFact、ZsRE和WikiFactDiff的实验表明,SCAN实现了卓越的性能,即使在3000次连续编辑后,也能在MMLU和GSM8K等基准测试中保持模型的完整性,而其他现有方法随着编辑的累积而逐渐恶化,最终导致模型崩溃。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在进行连续知识编辑时出现的灾难性遗忘和模型崩溃问题。现有的知识编辑方法通常采用密集参数干预,将模型视为黑盒,通过粗粒度的参数调整来实现知识的更新。这种方式的缺点在于,它不可避免地会影响到模型中原本存储的、与编辑无关的知识,从而导致模型性能下降,甚至崩溃。
核心思路:SCAN的核心思路是通过稀疏的方式进行知识编辑,避免对模型参数进行大规模的调整。具体来说,SCAN通过构建一个稀疏的知识电路,将编辑操作限制在这个电路内部,从而避免对模型其他部分的干扰。这种稀疏编辑的方式能够更好地保留模型原有的知识,提高编辑的效率和可靠性。
技术框架:SCAN的技术框架主要包括以下几个步骤:1) 使用稀疏转码器构建知识电路,该电路能够将输入的知识转化为模型内部的表示;2) 通过对知识电路中的特定神经元进行操作,实现知识的编辑;3) 使用特定的损失函数来优化知识电路的参数,使得编辑后的模型能够正确地回答相关问题。整个框架的目标是在尽可能少地修改模型参数的前提下,实现知识的准确更新。
关键创新:SCAN最重要的技术创新在于其稀疏编辑的策略。与传统的密集编辑方法不同,SCAN只对模型中的一小部分参数进行修改,从而避免了对模型整体结构的破坏。此外,SCAN还引入了知识电路的概念,将编辑操作限制在一个特定的区域内,从而提高了编辑的精度和效率。
关键设计:SCAN的关键设计包括:1) 稀疏转码器的结构,它决定了知识电路的稀疏程度;2) 知识电路中神经元的选择策略,它决定了哪些神经元需要被修改;3) 损失函数的设计,它决定了编辑后的模型应该如何表现。这些设计共同决定了SCAN的性能和效果。
📊 实验亮点
SCAN在Gemma2、Qwen3和Llama3.1等模型上进行了实验,针对CounterFact、ZsRE和WikiFactDiff等数据集,结果表明SCAN在3000次连续编辑后,仍能在MMLU和GSM8K等基准测试中保持模型性能,显著优于其他现有方法,有效避免了模型崩溃。这表明SCAN在终身知识编辑方面具有显著优势。
🎯 应用场景
SCAN可应用于需要持续学习和知识更新的LLM场景,例如智能客服、内容生成、知识库维护等。通过SCAN,LLM可以在不断学习新知识的同时,保持原有知识的完整性,避免灾难性遗忘,从而提高模型的长期性能和可靠性。该研究对于构建更智能、更可靠的LLM具有重要意义。
📄 摘要(原文)
Large Language Models (LLMs) often suffer from catastrophic forgetting and collapse during sequential knowledge editing. This vulnerability stems from the prevailing dense editing paradigm, which treats models as black boxes and relies on coarse-grained parameter interventions that inevitably disrupt preserved knowledge. To address this, we propose SCAN (a sparse editing framework based on Sparse Circuit Anchored Neuron) which transforms editing into a mechanism-aware manipulation by constructing a knowledge circuit via Sparse Transcoders. Experiments on Gemma2, Qwen3, and Llama3.1 across CounterFact, ZsRE and WikiFactDiff demonstrate that SCAN achieves a superior performance, maintaining model integrity on benchmarks like MMLU and GSM8K even after 3,000 sequential edits, whereas other existing methods deteriorate progressively as editing accumulates, eventually resulting in model collapse.