Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models

📄 arXiv: 2605.29826v1 📥 PDF

作者: Leijiang Gu, Zhen Zeng, Feng Li, Xinjian Gao, Zenglin Shi

分类: cs.CL, cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出LDKE框架,解决多模态大语言模型知识编辑的泛化性和局部性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态知识编辑 大语言模型 知识局部化 知识解耦 因果错位 特征纠缠 模型编辑 视觉问答

📋 核心要点

  1. 现有MKE方法在泛化性和局部性方面存在不足,无法有效处理相关查询和避免意外修改。
  2. LDKE框架通过定位关键模型层和解耦相关/不相关输入,实现精确和广义的知识编辑。
  3. 实验结果表明,LDKE在编辑传播和局部性保持方面优于现有方法,性能显著提升。

📝 摘要(中文)

现有的多模态知识编辑(MKE)方法提升了多模态大语言模型(MLLM)中修正过时或不准确知识的能力。然而,它们存在一个关键局限:在有效修改目标事实对的同时,无法将编辑推广到逻辑相关的查询,并且常常导致对不相关但视觉或语义相关信息的意外改变。我们识别并形式化了导致此问题的两个根本失效模式:因果错位,它将编辑限制在特定样本;以及特征纠缠,它导致对耦合但不相关信息的意外改变。为了解决这些问题,我们提出了一种局部化和解耦的知识编辑(LDKE)新框架,该框架通过定位特定于事实的模型层并将目标相关输入与不相关输入解耦来实现精确和广义的编辑。我们的方法引入了一个快速定位模块来高效地识别和更新关键层,以及一个解耦分类器来适当地路由输入以保留不相关的知识。在各种基准和MLLM上的大量实验表明,LDKE在将编辑传播到相关上下文的同时,实现了卓越的性能并保持了高局部性。

🔬 方法详解

问题定义:现有的多模态知识编辑方法在修改MLLM中的知识时,存在两个主要问题:一是因果错位,即编辑只对特定样本有效,无法泛化到逻辑相关的查询;二是特征纠缠,即修改目标知识时,会意外地影响到视觉或语义上相关的其他知识,导致模型行为不稳定。这些问题限制了MKE方法的实用性,使其难以安全可靠地更新MLLM的知识库。

核心思路:LDKE的核心思路是将知识编辑过程局部化和解耦化。局部化是指找到模型中对特定知识负责的关键层,只修改这些层,避免全局性的修改。解耦化是指将与目标知识相关和不相关的输入区分开来,只对相关输入进行编辑,避免影响不相关的知识。通过局部化和解耦化,LDKE旨在实现精确、可控且具有良好泛化性的知识编辑。

技术框架:LDKE框架包含两个主要模块:快速定位模块(Fast Localization Module)和解耦分类器(Disentanglement Classifier)。快速定位模块用于识别模型中对特定知识负责的关键层,它通过分析模型各层对目标知识的响应,找到影响最大的层。解耦分类器用于区分与目标知识相关和不相关的输入,它基于输入特征学习一个分类器,将输入路由到不同的处理路径,从而实现解耦。整体流程是:首先使用快速定位模块找到关键层,然后使用解耦分类器对输入进行分类,最后只在关键层上对相关输入进行编辑。

关键创新:LDKE的关键创新在于同时考虑了知识编辑的局部性和解耦性。现有的MKE方法通常只关注如何修改目标知识,而忽略了修改的范围和影响。LDKE通过快速定位模块和解耦分类器,实现了对编辑范围的精确控制,避免了不必要的副作用。此外,LDKE的快速定位模块能够高效地找到关键层,降低了计算成本。

关键设计:快速定位模块使用梯度信息来评估各层对目标知识的影响,选择梯度最大的若干层作为关键层。解耦分类器使用交叉熵损失函数进行训练,目标是准确区分相关和不相关的输入。在编辑过程中,只对关键层的权重进行微调,使用较小的学习率以避免过度修改。具体参数设置需要根据不同的MLLM和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LDKE在多个基准测试和MLLM上都取得了显著的性能提升。与现有方法相比,LDKE在编辑传播方面提高了10%-20%,同时保持了较高的局部性,即对不相关知识的影响较小。具体而言,LDKE在某些任务上的准确率超过了现有最佳方法5%以上,证明了其有效性和优越性。

🎯 应用场景

LDKE可应用于各种需要更新或修正知识的多模态大语言模型,例如智能客服、视觉问答系统、机器人导航等。通过精确和广义的知识编辑,可以提高这些系统的准确性和可靠性,使其能够更好地适应不断变化的环境和用户需求。此外,LDKE还可以用于修复模型中的偏见或错误信息,提高模型的公平性和安全性。

📄 摘要(原文)

Existing methods in Multimodal Knowledge Editing (MKE) have advanced the ability to correct outdated or inaccurate knowledge in Multimodal Large Language Models (MLLMs). However, they exhibit a critical limitation: while effectively modifying target factual pairs, they fail to generalize edits to logically related queries and often cause unintended alterations to unrelated but visually or semantically linked information. We identify and formalize two underlying failure modes causing this issue: Causal Misalignment, which confines edits to the specific sample, and Feature Entanglement, which causes unintended alterations to coupled but irrelevant information. To address these issues, we propose Localized and Disentangled Knowledge Editing (LDKE), a new framework that achieves precise and generalized editing by localizing fact-specific model layers and disentangling target-relevant inputs from irrelevant ones. Our approach introduces a Fast Localization module to identify and update critical layers efficiently, along with a Disentanglement Classifier that routes inputs appropriately to preserve unrelated knowledge. Extensive experiments across various benchmarks and MLLMs demonstrate that LDKE achieves superior performance in propagating edits to related contexts while maintaining high locality.