Conflict-Resolving and Sharpness-Aware Minimization for Generalized Knowledge Editing with Multiple Updates
作者: Duy Nguyen, Hanqi Xiao, Archiki Prasad, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
分类: cs.LG, cs.CL
发布日期: 2026-02-03
备注: 22 pages, 8 figures. Code link: https://github.com/duykhuongnguyen/CoRSA
💡 一句话要点
提出CoRSA框架,通过冲突解决和锐度感知最小化实现广义知识编辑
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识编辑 大型语言模型 锐度感知最小化 冲突解决 参数高效微调
📋 核心要点
- 现有模型编辑方法在泛化性、稳定性和知识冲突方面存在不足,限制了其在实际场景中的应用。
- CoRSA框架通过最小化损失曲率提高泛化性和稳定性,并最大化新旧知识的裕度来解决知识冲突。
- 实验结果表明,CoRSA在事实编辑和代码编辑任务上均优于现有方法,显著提升了泛化能力和更新效果。
📝 摘要(中文)
大型语言模型(LLMs)依赖于内部知识来解决许多下游任务,因此保持其知识的更新至关重要。由于完全重新训练成本高昂,先前的工作探索了诸如模型编辑和参数高效微调等有效替代方案。然而,这些方法在实践中经常由于跨输入的泛化能力差、稳定性有限和知识冲突而失效。为了解决这些限制,我们提出了CoRSA(冲突解决和锐度感知最小化)训练框架,这是一种参数高效的整体方法,用于进行多次更新的知识编辑。CoRSA同时解决了多个挑战:它通过最小化损失曲率来提高对不同输入形式的泛化能力并增强多次更新的稳定性,并通过最大化新知识和先前知识之间的裕度来解决冲突。在三个广泛使用的事实编辑基准测试中,CoRSA在泛化方面取得了显著的提升,优于基线,平均绝对改进超过LoRA 12.42%,超过模型编辑方法10%。在多次更新中,它保持了较高的更新效果,同时与LoRA相比,灾难性遗忘减少了27.82%。CoRSA还推广到代码领域,在更新效果方面,Pass@5指标优于最强的基线5.48%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型知识编辑中存在的泛化性差、稳定性不足以及知识冲突问题。现有的模型编辑方法,如LoRA等,在面对多种输入形式、多次知识更新时,容易出现泛化能力下降、灾难性遗忘以及新旧知识互相干扰的情况。
核心思路:CoRSA的核心思路是通过冲突解决和锐度感知最小化来提升知识编辑的性能。具体来说,通过锐度感知最小化(Sharpness-Aware Minimization, SAM)来寻找更平坦的损失函数区域,从而提高模型的泛化能力和稳定性。同时,通过冲突解决机制,显式地最大化新旧知识之间的间隔,从而避免知识冲突和灾难性遗忘。
技术框架:CoRSA框架主要包含两个关键组成部分:锐度感知最小化和冲突解决。首先,利用SAM算法在参数空间中寻找一个损失函数值较低且曲率较小的区域,从而提高模型的泛化能力。其次,通过引入一个冲突解决损失函数,鼓励模型在新知识和旧知识之间保持较大的间隔,从而避免知识冲突。整个训练过程采用参数高效的微调方式,以降低计算成本。
关键创新:CoRSA的关键创新在于将锐度感知最小化和冲突解决机制结合起来,共同优化知识编辑过程。与传统的模型编辑方法相比,CoRSA不仅关注于最小化编辑后的损失,还关注于模型的泛化能力和知识冲突问题,从而实现了更鲁棒和有效的知识编辑。
关键设计:CoRSA的关键设计包括:1) 使用SAM算法进行锐度感知最小化,具体实现方式与原始SAM论文类似,通过计算梯度和扰动来寻找平坦区域。2) 设计冲突解决损失函数,该损失函数的目标是最大化新知识和旧知识之间的间隔,可以使用hinge loss或者margin loss等形式。3) 采用参数高效的微调策略,例如LoRA,以降低计算成本和避免过拟合。
🖼️ 关键图片
📊 实验亮点
CoRSA在三个事实编辑基准测试中取得了显著的提升,平均绝对改进超过LoRA 12.42%,超过模型编辑方法10%。在多次更新中,与LoRA相比,灾难性遗忘减少了27.82%。在代码编辑任务中,CoRSA在Pass@5指标上优于最强的基线5.48%。这些结果表明CoRSA在泛化能力、稳定性和更新效果方面均优于现有方法。
🎯 应用场景
CoRSA框架可应用于各种需要持续更新知识的大型语言模型,例如问答系统、对话系统和知识图谱。通过高效地编辑模型知识,可以使其更好地适应不断变化的世界,并提供更准确和可靠的信息服务。此外,该方法还可以应用于代码领域的知识编辑,提升代码生成和理解能力。
📄 摘要(原文)
Large language models (LLMs) rely on internal knowledge to solve many downstream tasks, making it crucial to keep them up to date. Since full retraining is expensive, prior work has explored efficient alternatives such as model editing and parameter-efficient fine-tuning. However, these approaches often break down in practice due to poor generalization across inputs, limited stability, and knowledge conflict. To address these limitations, we propose the CoRSA (Conflict-Resolving and Sharpness-Aware Minimization) training framework, a parameter-efficient, holistic approach for knowledge editing with multiple updates. CoRSA tackles multiple challenges simultaneously: it improves generalization to different input forms and enhances stability across multiple updates by minimizing loss curvature, and resolves conflicts by maximizing the margin between new and prior knowledge. Across three widely used fact editing benchmarks, CoRSA achieves significant gains in generalization, outperforming baselines with average absolute improvements of 12.42% over LoRA and 10% over model editing methods. With multiple updates, it maintains high update efficacy while reducing catastrophic forgetting by 27.82% compared to LoRA. CoRSA also generalizes to the code domain, outperforming the strongest baseline by 5.48% Pass@5 in update efficacy.