Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

📄 arXiv: 2601.11042v1 📥 PDF

作者: Chi Zhang, Mengqi Zhang, Xiaotian Ye, Runxi Cheng, Zisheng Zhou, Ying Zhou, Pengjie Ren, Zhumin Chen

分类: cs.CL, cs.AI

发布日期: 2026-01-16

备注: 22 pages, 18 figures


💡 一句话要点

提出REVIVE框架,通过谱分析缓解大语言模型序列知识编辑中的灾难性崩溃问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识编辑 大语言模型 灾难性崩溃 谱分析 奇异值分解

📋 核心要点

  1. 现有参数修改方法在序列知识编辑中易导致模型通用能力崩溃,缺乏对退化机制的深入理解。
  2. REVIVE框架通过谱分析,识别并保护与模型通用能力相关的权重矩阵主导奇异方向。
  3. 实验表明,REVIVE能有效提升编辑效果,同时显著保留模型在长序列编辑下的通用能力。

📝 摘要(中文)

大语言模型中的序列知识编辑常常导致模型通用能力的灾难性崩溃,特别是对于参数修改方法。现有方法通过对参数更新的启发式约束来缓解这个问题,但对这种退化背后的机制仍然缺乏充分的理解。本文对序列知识编辑进行了谱分析,表明模型的通用能力与预训练权重矩阵的主导奇异方向密切相关。这些方向对扰动高度敏感,并随着重复编辑逐渐受到破坏,与编辑效果和通用性能的崩溃密切相关。基于此,我们提出了REVIVE,一个即插即用的框架,通过显式地保留主导奇异子空间来稳定序列编辑。REVIVE将参数更新表示在原始权重的谱基中,并过滤掉会干扰受保护区域的成分。在多个模型和基准测试上的大量实验表明,REVIVE在长期序列编辑下,包括高达20,000次编辑的极端设置中,始终如一地提高了编辑效果,同时显著地保留了通用能力。

🔬 方法详解

问题定义:序列知识编辑旨在使大型语言模型能够持续学习和更新知识。然而,现有的参数修改方法在进行多次连续编辑后,往往会导致模型遗忘原有知识,即发生“灾难性崩溃”。现有方法主要依赖启发式约束来限制参数更新,但缺乏对崩溃根本原因的理解,导致效果有限。

核心思路:该论文的核心思路是通过谱分析揭示模型通用能力与权重矩阵主导奇异方向之间的关联。作者发现,模型在预训练阶段学习到的通用知识主要体现在权重矩阵的几个主导奇异方向上。序列编辑过程中,对参数的微小扰动会逐渐破坏这些方向,导致模型性能下降。因此,保护这些主导奇异方向是缓解灾难性崩溃的关键。

技术框架:REVIVE框架是一个即插即用的模块,可以嵌入到现有的知识编辑方法中。其主要流程包括:1) 对原始权重矩阵进行奇异值分解(SVD),得到谱基;2) 将参数更新表示在这个谱基上;3) 过滤掉那些会干扰主导奇异子空间的成分,只保留对模型通用能力影响较小的更新;4) 将过滤后的更新应用到模型参数。

关键创新:REVIVE的关键创新在于将谱分析引入到知识编辑领域,并提出了基于谱分解的参数更新过滤方法。与现有方法相比,REVIVE不是简单地限制参数更新的幅度,而是有针对性地保护对模型通用能力至关重要的权重子空间。这种方法能够更有效地缓解灾难性崩溃,同时保持编辑效果。

关键设计:REVIVE的关键设计包括:1) 如何确定需要保护的主导奇异方向的数量。作者通过实验发现,保护少量的主导奇异方向就能取得较好的效果。2) 如何选择合适的过滤策略。作者设计了一种基于阈值的过滤方法,将对主导奇异子空间影响超过阈值的更新成分过滤掉。3) REVIVE作为一个即插即用的模块,可以方便地集成到各种现有的知识编辑方法中。

📊 实验亮点

实验结果表明,REVIVE在多个模型(如GPT-2、BERT)和基准测试(如CounterFact、MNLI)上都取得了显著的提升。在长序列编辑场景下(高达20,000次编辑),REVIVE能够显著提高编辑成功率,同时保持模型在通用任务上的性能,优于现有的知识编辑方法。

🎯 应用场景

该研究成果可应用于需要持续学习和更新知识的大型语言模型,例如智能客服、知识图谱问答、机器翻译等领域。通过缓解序列知识编辑中的灾难性崩溃问题,可以提高模型的长期性能和可靠性,使其能够更好地适应不断变化的环境。

📄 摘要(原文)

Sequential knowledge editing in large language models often causes catastrophic collapse of the model's general abilities, especially for parameter-modifying methods. Existing approaches mitigate this issue through heuristic constraints on parameter updates, yet the mechanisms underlying such degradation remain insufficiently understood. In this work, we present a spectral analysis of sequential knowledge editing and show that a model's general abilities are closely associated with dominant singular directions of pretrained weight matrices. These directions are highly sensitive to perturbations and are progressively disrupted by repeated edits, closely tracking the collapse in both editing efficacy and general performance. Building on this insight, we propose REVIVE, a plug-and-play framework that stabilizes sequential editing by explicitly preserving the dominant singular subspace. REVIVE represents parameter updates in the spectral basis of the original weights and filters components that would interfere with the protected region. Extensive experiments across multiple models and benchmarks show that REVIVE consistently improves editing efficacy while substantially preserving general abilities under long-horizon sequential editing, including extreme settings with up to 20,000 edits.