Enhancing Knowledge Graph Construction: Evaluating with Emphasis on Hallucination, Omission, and Graph Similarity Metrics

📄 arXiv: 2502.05239v1 📥 PDF

作者: Hussam Ghanem, Christophe Cruz

分类: cs.CL, cs.AI

发布日期: 2025-02-07

期刊: Sixth International Knowledge Graph and Semantic Web Conference (KGSWC 2024), Dec 2024, Paris, France


💡 一句话要点

提出基于BERTScore的知识图谱构建评估框架,关注幻觉和遗漏问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱构建 大型语言模型 幻觉 遗漏 BERTScore 图相似度 模型评估

📋 核心要点

  1. 现有知识图谱构建方法在处理非结构化文本时,面临幻觉(生成错误信息)和遗漏(未能提取关键信息)的挑战。
  2. 论文提出一种增强的评估框架,利用BERTScore衡量图相似度,并设置阈值,从而更有效地识别和量化幻觉和遗漏。
  3. 实验表明,在特定数据集上微调的模型能显著提高知识图谱构建的准确性,但泛化能力有所下降,突显了评估泛化性的重要性。

📝 摘要(中文)

本文在之前工作的基础上,针对大型语言模型从非结构化文本中自动构建知识图谱的能力进行了研究,并着重关注幻觉和遗漏问题。提出了一种改进的评估框架,该框架结合了BERTScore用于图相似度计算,并设定了95%的图匹配阈值。实验主要集中在Mistral模型上,比较了其原始版本和微调版本在零样本和少样本设置下的性能。通过使用KELM-sub训练数据集中的示例进行实验,结果表明,微调模型显著提高了知识图谱构建的准确性,同时减少了幻觉和遗漏。然而,研究也发现,微调模型在KELM-sub数据集上的泛化能力较差。这项研究强调了综合评估指标在推进从文本数据构建知识图谱技术发展中的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在从非结构化文本中构建知识图谱时出现的幻觉和遗漏问题。现有方法在评估知识图谱构建质量时,往往缺乏对幻觉和遗漏的有效量化,导致无法准确评估模型的真实性能。此外,现有评估方法在图相似度计算方面存在不足,难以准确衡量生成图谱与真实图谱之间的差异。

核心思路:论文的核心思路是引入BERTScore作为图相似度指标,并设定一个实际的阈值(95%),以此来更严格地评估知识图谱构建的质量。通过BERTScore,可以更准确地衡量生成图谱与真实图谱之间的语义相似度,从而更有效地识别幻觉和遗漏。同时,通过比较原始模型和微调模型在不同设置下的性能,可以深入了解微调对知识图谱构建的影响。

技术框架:论文的整体框架包括以下几个主要阶段:1) 使用大型语言模型(如Mistral)从非结构化文本中生成知识图谱;2) 使用BERTScore计算生成图谱与真实图谱之间的相似度;3) 根据设定的阈值(95%)判断图谱是否匹配;4) 评估模型的准确性、幻觉和遗漏情况;5) 比较原始模型和微调模型在不同设置下的性能。

关键创新:论文最重要的技术创新点在于将BERTScore引入知识图谱构建的评估中,并将其应用于幻觉和遗漏的量化。与传统的基于精确匹配的评估方法相比,BERTScore能够更好地捕捉图谱之间的语义相似度,从而更准确地评估模型的性能。此外,论文还通过实验验证了微调对知识图谱构建的影响,并揭示了微调可能导致泛化能力下降的问题。

关键设计:论文的关键设计包括:1) 选择BERTScore作为图相似度指标,并根据实际情况设定合适的阈值(95%);2) 使用KELM-sub数据集进行实验,该数据集包含多个领域的知识图谱,可以用于评估模型的泛化能力;3) 比较原始模型和微调模型在零样本和少样本设置下的性能,以评估微调的效果;4) 采用精确率、召回率、F1值、三元组匹配和图匹配等指标,对知识图谱构建的质量进行综合评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在KELM-sub数据集上,经过微调的Mistral模型在知识图谱构建的准确性方面有显著提升,同时减少了幻觉和遗漏。然而,微调后的模型在泛化能力方面表现较差,这表明在追求高准确率的同时,需要关注模型的泛化能力。BERTScore作为图相似度指标,在评估知识图谱构建质量方面表现出良好的性能。

🎯 应用场景

该研究成果可应用于自动化知识图谱构建、信息抽取、问答系统、语义搜索等领域。通过更准确地评估知识图谱构建的质量,可以提高相关应用的性能和可靠性。此外,该研究还可以帮助研究人员更好地理解大型语言模型在知识图谱构建方面的优势和局限性,从而为未来的研究提供指导。

📄 摘要(原文)

Recent advancements in large language models have demonstrated significant potential in the automated construction of knowledge graphs from unstructured text. This paper builds upon our previous work [16], which evaluated various models using metrics like precision, recall, F1 score, triple matching, and graph matching, and introduces a refined approach to address the critical issues of hallucination and omission. We propose an enhanced evaluation framework incorporating BERTScore for graph similarity, setting a practical threshold of 95% for graph matching. Our experiments focus on the Mistral model, comparing its original and fine-tuned versions in zero-shot and few-shot settings. We further extend our experiments using examples from the KELM-sub training dataset, illustrating that the fine-tuned model significantly improves knowledge graph construction accuracy while reducing the exact hallucination and omission. However, our findings also reveal that the fine-tuned models perform worse in generalization tasks on the KELM-sub dataset. This study underscores the importance of comprehensive evaluation metrics in advancing the state-of-the-art in knowledge graph construction from textual data.