Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting

作者: Jinhu Fu, Yan Bai, Longzhu He, Yihang Lou, Yanxiao Zhao, Li Sun, Sen Su

分类: cs.CL

发布日期: 2026-04-07

备注: Accepted by ACL 2026 main conference

🔗 代码/项目: GITHUB

💡 一句话要点

提出CoT2Edit，通过指令式思维链提示学习编辑知识，提升LLM泛化性和知识覆盖面

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识编辑 思维链 大型语言模型 指令学习 检索增强生成

📋 核心要点

现有知识编辑方法泛化性不足，难以有效利用新知识解决实际问题，且主要关注结构化数据。
CoT2Edit通过思维链提示，使LLM学习编辑知识，并结合RAG动态检索相关事实，提升知识利用率。
实验表明，CoT2Edit仅需单轮训练，即可在多种知识编辑场景中实现强大的泛化能力。

📝 摘要（中文）

大型语言模型(LLMs)可以通过知识编辑有效地处理过时信息。然而，目前的方法面临两个主要限制：（I）泛化性差：大多数方法僵化地注入新知识，而不能确保模型有效地利用这些知识来解决实际问题。（II）范围狭窄：当前方法主要关注结构化的事实三元组，忽略了现实世界中普遍存在的各种非结构化形式的事实信息（例如，新闻、文章）。为了应对这些挑战，我们提出了一种新的范式：通过思维链(CoTs)推理来教导LLMs编辑知识(CoT2Edit)。我们首先利用语言模型代理处理结构化和非结构化的编辑数据，生成CoTs，构建高质量的指令数据。然后，通过监督微调(SFT)和群体相对策略优化(GRPO)训练模型对编辑过的知识进行推理。在推理时，我们集成检索增强生成(RAG)来动态检索相关的编辑事实，以进行实时知识编辑。实验结果表明，我们的方法仅通过对三个开源语言模型进行一轮训练，即可在六个不同的知识编辑场景中实现强大的泛化能力。代码可在https://github.com/FredJDean/CoT2Edit获取。

🔬 方法详解

问题定义：现有知识编辑方法主要存在两个痛点：一是泛化能力差，模型难以将编辑后的知识应用到实际问题中；二是知识覆盖范围窄，主要集中于结构化的事实三元组，忽略了非结构化数据（如新闻、文章）中蕴含的丰富知识。

核心思路：CoT2Edit的核心思路是通过思维链(Chain-of-Thought, CoT)提示，引导LLM学习如何编辑知识。通过让模型逐步推理，理解知识编辑的逻辑和过程，从而提高其泛化能力和知识利用效率。同时，结合检索增强生成(RAG)，动态检索相关编辑事实，实现实时知识编辑。

技术框架：CoT2Edit的整体框架包含以下几个主要阶段： 1. 数据生成：利用语言模型代理，针对结构化和非结构化的编辑数据，生成思维链(CoT)，构建高质量的指令数据。 2. 模型训练：通过监督微调(SFT)和群体相对策略优化(GRPO)训练模型，使其能够对编辑过的知识进行推理。 3. 推理阶段：集成检索增强生成(RAG)，动态检索相关的编辑事实，进行实时知识编辑。

关键创新：CoT2Edit最重要的技术创新点在于引入了思维链(CoT)提示，将知识编辑任务转化为一个推理过程，使模型能够更好地理解和利用编辑后的知识。与现有方法相比，CoT2Edit更加注重模型的推理能力和泛化能力，而非简单地注入新知识。

关键设计：在数据生成阶段，使用了语言模型代理自动生成CoT，避免了人工标注的成本。在模型训练阶段，采用了监督微调(SFT)和群体相对策略优化(GRPO)相结合的方式，以提高模型的性能和稳定性。在推理阶段，使用了检索增强生成(RAG)，动态检索相关编辑事实，以提高知识编辑的准确性和效率。具体的参数设置和损失函数等技术细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CoT2Edit在六个不同的知识编辑场景中实现了强大的泛化能力，仅需对三个开源语言模型进行一轮训练。这表明CoT2Edit具有很高的效率和实用性，能够有效地解决现有知识编辑方法的局限性。

🎯 应用场景

CoT2Edit可应用于各种需要实时更新知识的场景，例如问答系统、对话机器人、搜索引擎等。通过动态编辑和检索知识，可以提高这些系统的准确性和可靠性，使其能够更好地适应不断变化的世界。

📄 摘要（原文）

Large language models (LLMs) can effectively handle outdated information through knowledge editing. However, current approaches face two key limitations: (I) Poor generalization: Most approaches rigidly inject new knowledge without ensuring that the model can use it effectively to solve practical problems. (II) Narrow scope: Current methods focus primarily on structured fact triples, overlooking the diverse unstructured forms of factual information (e.g., news, articles) prevalent in real-world contexts. To address these challenges, we propose a new paradigm: teaching LLMs to edit knowledge via Chain of Thoughts (CoTs) reasoning (CoT2Edit). We first leverage language model agents for both structured and unstructured edited data to generate CoTs, building high-quality instruction data. The model is then trained to reason over edited knowledge through supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO). At inference time, we integrate Retrieval-Augmented Generation (RAG) to dynamically retrieve relevant edited facts for real-time knowledge editing. Experimental results demonstrate that our method achieves strong generalization across six diverse knowledge editing scenarios with just a single round of training on three open-source language models. The codes are available at https://github.com/FredJDean/CoT2Edit.

Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理