Benchmarking Knowledge Editing using Logical Rules

📄 arXiv: 2606.10554v1 📥 PDF

作者: Tatiana Moteu Ngoli, NDah Jean Kouagou, Hamada M. Zahera, Axel-Cyrille Ngonga Ngomo

分类: cs.CL, cs.AI

发布日期: 2026-06-09

备注: Accepted at the 24th International Semantic Web Conference 2025

期刊: The Semantic Web. ISWC 2025. ISWC 2025. Lecture Notes in Computer Science, vol 16141. Springer, Cham

DOI: 10.1007/978-3-032-09530-5_3


💡 一句话要点

提出新的基准以评估知识编辑中的逻辑规则处理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识编辑 逻辑规则 大型语言模型 知识图谱 多跳推理 语义评估 人工智能

📋 核心要点

  1. 现有知识编辑方法主要关注直接编辑的事实,忽视了相应的逻辑后果,导致知识更新不全面。
  2. 本文提出了一种新基准,通过提取知识图谱中的逻辑规则,评估知识编辑方法对逻辑后果的处理能力。
  3. 实验结果显示,现有方法在直接编辑知识时表现良好,但在蕴含知识的注入上存在显著性能差距,最高达24%。

📝 摘要(中文)

大型语言模型(LLMs)在需要最新知识的实际应用中越来越普遍。然而,重新训练LLMs的计算成本高昂,因此知识编辑技术对于维护当前信息和纠正错误断言至关重要。目前的知识编辑基准主要关注编辑事实的回忆,往往忽视其逻辑后果。为了解决这一局限性,本文提出了一种新的基准,旨在评估知识编辑方法如何处理单个事实编辑的逻辑后果。该基准从知识图谱中提取相关逻辑规则,并基于这些规则生成多跳问题,以评估对逻辑后果的影响。研究发现,尽管现有知识编辑方法能够准确插入直接断言,但它们在注入蕴含知识方面常常失败,尤其是流行方法如ROME和FT在直接编辑知识与蕴含知识的评估中存在高达24%的性能差距。这凸显了在知识编辑中需要语义感知的评估框架。

🔬 方法详解

问题定义:本文旨在解决现有知识编辑方法在处理逻辑后果时的不足,尤其是对蕴含知识的忽视。现有方法在直接编辑知识时表现良好,但未能有效捕捉到逻辑推导的结果。

核心思路:论文的核心思路是通过构建一个新的基准,专注于评估知识编辑方法在逻辑后果处理上的能力。通过提取知识图谱中的逻辑规则,生成多跳问题来测试知识编辑的有效性。

技术框架:整体架构包括三个主要模块:首先,从知识图谱中提取相关逻辑规则;其次,基于这些规则生成多跳问题;最后,评估知识编辑方法在逻辑后果上的表现。

关键创新:最重要的技术创新点在于引入了逻辑规则的提取与多跳问题生成的结合,这与现有方法仅关注直接编辑的事实形成鲜明对比。

关键设计:在设计中,论文对逻辑规则的提取算法进行了优化,并在多跳问题生成中考虑了语义一致性,以确保评估的准确性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有知识编辑方法在直接编辑知识时的表现良好,但在蕴含知识的注入上存在高达24%的性能差距。这一发现强调了在知识编辑中引入语义感知评估框架的必要性,为未来的研究提供了重要的方向。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、知识管理平台和自动化内容更新工具。通过提高知识编辑的准确性和逻辑一致性,能够显著提升这些系统在实际应用中的可靠性和用户体验,推动智能系统的进一步发展。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, retraining LLMs is computationally expensive. Therefore, knowledge editing techniques are crucial for maintaining current information and correcting erroneous assertions within pre-trained models. Current benchmarks for knowledge editing primarily focus on recalling edited facts, often neglecting their logical consequences. To address this limitation, we introduce a new benchmark designed to evaluate how knowledge editing methods handle the logical consequences of a single fact edit. Our benchmark extracts relevant logical rules from a knowledge graph for a given edit. Then, it generates multi-hop questions based on these rules to assess the impact on logical consequences. Our findings indicate that while existing knowledge editing approaches can accurately insert direct assertions into LLMs, they frequently fail to inject entailed knowledge. Specifically, experiments with popular methods like ROME and FT reveal a substantial performance gap, up to 24%, between evaluations on directly edited knowledge and on entailed knowledge. This highlights the critical need for semantics-aware evaluation frameworks in knowledge editing.