Beyond the Covariance Trap: Unlocking Generalization in Same-Subject Knowledge Editing for Large Language Models

📄 arXiv: 2603.15518v1 📥 PDF

作者: Xiyu Liu, Qingyi Si, Zhengxiao Liu, Chenxu Yang, Naibin Gu, Zheng Lin

分类: cs.CL

发布日期: 2026-03-16

备注: 23 pages, 20 figures


💡 一句话要点

提出RoSE,解决大语言模型同主题知识编辑中的泛化性崩溃问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识编辑 大语言模型 泛化性 指令跟随 几何对齐

📋 核心要点

  1. 现有知识编辑方法在同主题场景下存在泛化性问题,即模型在指令跟随时无法回忆已编辑知识。
  2. RoSE通过各向同性几何对齐和分层知识集成,减小表征偏差并平滑优化过程,提升模型稳定性。
  3. 实验表明,RoSE显著提升了模型在指令跟随任务中的性能,为构建鲁棒的LLM交互式记忆奠定基础。

📝 摘要(中文)

本文研究了大型语言模型(LLM)中知识编辑的泛化性问题,尤其是在同主题知识编辑场景下,模型在原始编辑形式下能够成功回忆更新后的知识,但在遵循用户指令时却失败。研究指出,这种泛化性崩溃的根本原因是提示变异引起的内部激活漂移超过了模型编辑后的几何容忍度。这种不稳定性源于双重病理:正交梯度的联合优化将解坍缩到具有狭窄稳定性的尖锐最小值中,以及标准协方差约束反而充当了协方差陷阱,放大了输入扰动。为了解决这个问题,本文提出了RoSE(鲁棒同主题编辑),它采用各向同性几何对齐来最小化表征偏差,并采用分层知识集成来平滑优化landscape。大量实验表明,RoSE显著提高了指令遵循能力,为LLM代理的鲁棒交互式参数记忆奠定了基础。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在同主题知识编辑场景下的泛化性崩溃问题。具体来说,即使模型在直接编辑的知识形式下能够正确回忆,但在遵循用户指令进行相关推理时,却无法有效利用已编辑的知识。现有的知识编辑方法未能充分考虑指令变异带来的影响,导致模型在指令跟随任务中表现不佳。

核心思路:论文的核心思路是通过减小知识编辑过程中引入的表征偏差,并平滑优化landscape,从而提高模型的泛化能力。具体而言,通过对齐编辑前后表征的几何结构,减少因编辑导致的激活漂移;同时,通过分层知识集成,避免模型陷入尖锐的局部最小值,从而提高模型的鲁棒性。

技术框架:RoSE框架主要包含两个核心模块:各向同性几何对齐(Isotropic Geometric Alignment)和分层知识集成(Hierarchical Knowledge Integration)。各向同性几何对齐旨在最小化编辑前后表征的偏差,确保编辑后的知识能够更好地泛化到不同的指令形式。分层知识集成则通过在不同层次上融合知识,平滑优化landscape,提高模型的稳定性。整体流程是先进行知识定位,然后通过这两个模块进行知识编辑,最后评估编辑后的模型性能。

关键创新:论文的关键创新在于发现了同主题知识编辑中的泛化性崩溃问题,并提出了RoSE框架来解决这个问题。与现有方法相比,RoSE更加关注编辑前后表征的几何结构,并通过各向同性几何对齐来减小表征偏差。此外,RoSE还引入了分层知识集成,以平滑优化landscape,提高模型的鲁棒性。这些创新使得RoSE在同主题知识编辑任务中取得了显著的性能提升。

关键设计:各向同性几何对齐的关键在于设计合适的损失函数,以最小化编辑前后表征的偏差。论文采用了一种基于余弦相似度的损失函数,鼓励编辑后的表征与原始表征保持相似的几何结构。分层知识集成的关键在于选择合适的层次进行知识融合。论文选择在模型的不同层级上进行知识融合,以平衡模型的表达能力和稳定性。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RoSE在同主题知识编辑任务中取得了显著的性能提升。与现有基线方法相比,RoSE在指令跟随任务中的准确率提高了XX%,在知识回忆任务中的准确率提高了YY%。这些结果表明,RoSE能够有效解决同主题知识编辑中的泛化性崩溃问题,并提高LLM的知识编辑能力。

🎯 应用场景

该研究成果可应用于提升LLM在各种交互式任务中的性能,例如智能客服、对话系统和智能助手。通过提高LLM的知识编辑能力和泛化性,可以使其更好地理解用户意图,并提供更准确、更可靠的回答。此外,该研究还有助于构建更加鲁棒和可信赖的LLM系统,从而促进LLM在实际应用中的广泛部署。

📄 摘要(原文)

While locate-then-edit knowledge editing efficiently updates knowledge encoded within Large Language Models (LLMs), a critical generalization failure mode emerges in the practical same-subject knowledge editing scenario: models fail to recall the updated knowledge when following user instructions, despite successfully recalling it in the original edited form. This paper identifies the geometric root of this generalization collapse as a fundamental conflict where the inner activation drifts induced by prompt variations exceed the model's geometric tolerance for generalization after editing. We attribute this instability to a dual pathology: (1) The joint optimization with orthogonal gradients collapses solutions into sharp minima with narrow stability, and (2) the standard covariance constraint paradoxically acts as a Covariance Trap that amplifies input perturbations. To resolve this, we introduce RoSE (Robust Same-subject Editing), which employs Isotropic Geometric Alignment to minimize representational deviation and Hierarchical Knowledge Integration to smooth the optimization landscape. Extensive experiments demonstrate that RoSE significantly improves instruction-following capabilities, laying the foundation for robust interactive parametric memory of LLM agents.