Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting
作者: Jinhu Fu, Yan Bai, Longzhu He, Yihang Lou, Yanxiao Zhao, Li Sun, Sen Su
分类: cs.CL
发布日期: 2026-04-07
备注: Accepted by ACL 2026 main conference
🔗 代码/项目: GITHUB
💡 一句话要点
提出CoT2Edit,通过指令式思维链提示学习编辑知识,提升LLM泛化性和知识覆盖面
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识编辑 思维链 大型语言模型 指令学习 检索增强生成
📋 核心要点
- 现有知识编辑方法泛化性不足,难以有效利用新知识解决实际问题,且主要关注结构化数据。
- CoT2Edit通过思维链提示,使LLM学习编辑知识,并结合RAG动态检索相关事实,提升知识利用率。
- 实验表明,CoT2Edit仅需单轮训练,即可在多种知识编辑场景中实现强大的泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)可以通过知识编辑有效地处理过时信息。然而,目前的方法面临两个主要限制:(I)泛化性差:大多数方法僵化地注入新知识,而不能确保模型有效地利用这些知识来解决实际问题。(II)范围狭窄:当前方法主要关注结构化的事实三元组,忽略了现实世界中普遍存在的各种非结构化形式的事实信息(例如,新闻、文章)。为了应对这些挑战,我们提出了一种新的范式:通过思维链(CoTs)推理来教导LLMs编辑知识(CoT2Edit)。我们首先利用语言模型代理处理结构化和非结构化的编辑数据,生成CoTs,构建高质量的指令数据。然后,通过监督微调(SFT)和群体相对策略优化(GRPO)训练模型对编辑过的知识进行推理。在推理时,我们集成检索增强生成(RAG)来动态检索相关的编辑事实,以进行实时知识编辑。实验结果表明,我们的方法仅通过对三个开源语言模型进行一轮训练,即可在六个不同的知识编辑场景中实现强大的泛化能力。代码可在https://github.com/FredJDean/CoT2Edit获取。
🔬 方法详解
问题定义:现有知识编辑方法主要存在两个痛点:一是泛化能力差,模型难以将编辑后的知识应用到实际问题中;二是知识覆盖范围窄,主要集中于结构化的事实三元组,忽略了非结构化数据(如新闻、文章)中蕴含的丰富知识。
核心思路:CoT2Edit的核心思路是通过思维链(Chain-of-Thought, CoT)提示,引导LLM学习如何编辑知识。通过让模型逐步推理,理解知识编辑的逻辑和过程,从而提高其泛化能力和知识利用效率。同时,结合检索增强生成(RAG),动态检索相关编辑事实,实现实时知识编辑。
技术框架:CoT2Edit的整体框架包含以下几个主要阶段: 1. 数据生成:利用语言模型代理,针对结构化和非结构化的编辑数据,生成思维链(CoT),构建高质量的指令数据。 2. 模型训练:通过监督微调(SFT)和群体相对策略优化(GRPO)训练模型,使其能够对编辑过的知识进行推理。 3. 推理阶段:集成检索增强生成(RAG),动态检索相关的编辑事实,进行实时知识编辑。
关键创新:CoT2Edit最重要的技术创新点在于引入了思维链(CoT)提示,将知识编辑任务转化为一个推理过程,使模型能够更好地理解和利用编辑后的知识。与现有方法相比,CoT2Edit更加注重模型的推理能力和泛化能力,而非简单地注入新知识。
关键设计:在数据生成阶段,使用了语言模型代理自动生成CoT,避免了人工标注的成本。在模型训练阶段,采用了监督微调(SFT)和群体相对策略优化(GRPO)相结合的方式,以提高模型的性能和稳定性。在推理阶段,使用了检索增强生成(RAG),动态检索相关编辑事实,以提高知识编辑的准确性和效率。具体的参数设置和损失函数等技术细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoT2Edit在六个不同的知识编辑场景中实现了强大的泛化能力,仅需对三个开源语言模型进行一轮训练。这表明CoT2Edit具有很高的效率和实用性,能够有效地解决现有知识编辑方法的局限性。
🎯 应用场景
CoT2Edit可应用于各种需要实时更新知识的场景,例如问答系统、对话机器人、搜索引擎等。通过动态编辑和检索知识,可以提高这些系统的准确性和可靠性,使其能够更好地适应不断变化的世界。
📄 摘要(原文)
Large language models (LLMs) can effectively handle outdated information through knowledge editing. However, current approaches face two key limitations: (I) Poor generalization: Most approaches rigidly inject new knowledge without ensuring that the model can use it effectively to solve practical problems. (II) Narrow scope: Current methods focus primarily on structured fact triples, overlooking the diverse unstructured forms of factual information (e.g., news, articles) prevalent in real-world contexts. To address these challenges, we propose a new paradigm: teaching LLMs to edit knowledge via Chain of Thoughts (CoTs) reasoning (CoT2Edit). We first leverage language model agents for both structured and unstructured edited data to generate CoTs, building high-quality instruction data. The model is then trained to reason over edited knowledge through supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO). At inference time, we integrate Retrieval-Augmented Generation (RAG) to dynamically retrieve relevant edited facts for real-time knowledge editing. Experimental results demonstrate that our method achieves strong generalization across six diverse knowledge editing scenarios with just a single round of training on three open-source language models. The codes are available at https://github.com/FredJDean/CoT2Edit.