LKD-KGC: Domain-Specific KG Construction via LLM-driven Knowledge Dependency Parsing

📄 arXiv: 2505.24163v1 📥 PDF

作者: Jiaqi Sun, Shiyou Qian, Zhangchi Han, Wei Li, Zelin Qian, Dingyu Yang, Jian Cao, Guangtao Xue

分类: cs.CL, cs.AI

发布日期: 2025-05-30

备注: Submitting to EDBT 2026


💡 一句话要点

提出LKD-KGC框架,通过LLM驱动的知识依赖解析构建领域知识图谱。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱构建 大型语言模型 领域知识图谱 知识依赖解析 无监督学习

📋 核心要点

  1. 现有知识图谱构建方法依赖人工定义的模式和外部知识,难以处理领域特定语料库中复杂的知识依赖。
  2. LKD-KGC框架通过LLM驱动的知识依赖解析,自主学习文档间的知识依赖关系,并自回归生成实体模式。
  3. 实验结果表明,LKD-KGC在精确率和召回率上均优于现有方法,提升幅度达到10%到20%。

📝 摘要(中文)

知识图谱(KGs)将现实世界的实体及其关系结构化为三元组,从而增强了各种任务的机器推理能力。虽然领域知识图谱具有显著的优势,但手动构建通常效率低下且需要专业知识。最近基于大型语言模型(LLMs)的知识图谱构建(KGC)方法,如模式引导的KGC和参考知识集成,已被证明是有效的。然而,这些方法受到其对人工定义的模式、单文档处理和公共领域参考的依赖性的限制,使得它们对于表现出复杂知识依赖性和特异性以及有限的参考知识的领域语料库效果较差。为了解决这些挑战,我们提出了一种用于无监督领域知识图谱构建的新框架LKD-KGC。LKD-KGC自主分析文档存储库以推断知识依赖性,通过LLM驱动的优先级排序确定最佳处理序列,并通过集成分层文档间上下文自回归地生成实体模式。该模式指导实体的无监督提取和关系提取,消除了对预定义结构或外部知识的依赖。大量的实验表明,与最先进的基线相比,LKD-KGC通常在精确率和召回率方面实现了10%到20%的改进,证明了其在构建高质量领域知识图谱方面的潜力。

🔬 方法详解

问题定义:论文旨在解决领域特定知识图谱构建的问题。现有方法依赖于人工定义的schema或外部知识库,无法有效处理领域特定语料库中复杂的知识依赖关系,导致构建的知识图谱质量不高。这些方法通常是基于单文档处理,忽略了文档间的上下文信息,进一步限制了其在领域知识图谱构建中的应用。

核心思路:LKD-KGC的核心思路是利用大型语言模型(LLM)的强大能力,自主学习文档间的知识依赖关系,并自回归地生成实体schema,从而指导知识图谱的构建。通过分析文档存储库,推断知识依赖性,并确定最佳处理序列,从而实现无监督的领域知识图谱构建。

技术框架:LKD-KGC框架包含以下几个主要模块:1) 知识依赖分析:利用LLM分析文档存储库,推断文档间的知识依赖关系。2) 处理序列优化:通过LLM驱动的优先级排序,确定最佳的文档处理序列。3) 实体模式生成:自回归地生成实体schema,集成分层文档间上下文信息。4) 实体和关系提取:利用生成的实体schema,无监督地提取实体和关系。

关键创新:LKD-KGC的关键创新在于其自主学习知识依赖关系和自回归生成实体schema的能力。与现有方法相比,LKD-KGC无需人工定义schema或依赖外部知识库,能够更好地适应领域特定语料库的特点。此外,LKD-KGC通过集成文档间上下文信息,能够更准确地提取实体和关系。

关键设计:LKD-KGC的关键设计包括:1) 使用LLM进行知识依赖分析和处理序列优化。2) 设计自回归的实体模式生成方法,利用分层文档间上下文信息。3) 设计无监督的实体和关系提取方法,利用生成的实体schema。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,LKD-KGC在领域知识图谱构建任务中,相较于现有最先进的基线方法,在精确率和召回率上均取得了显著提升,提升幅度达到10%到20%。这表明LKD-KGC能够更有效地处理领域特定语料库中的复杂知识依赖关系,构建更高质量的知识图谱。

🎯 应用场景

LKD-KGC可应用于多个领域,例如金融、医疗、法律等,帮助构建高质量的领域知识图谱。这些知识图谱可以用于知识推理、问答系统、智能推荐等应用,提升相关任务的性能和效率。该研究的成果有助于推动领域知识图谱的自动化构建,降低人工成本,加速知识图谱在各个领域的应用。

📄 摘要(原文)

Knowledge Graphs (KGs) structure real-world entities and their relationships into triples, enhancing machine reasoning for various tasks. While domain-specific KGs offer substantial benefits, their manual construction is often inefficient and requires specialized knowledge. Recent approaches for knowledge graph construction (KGC) based on large language models (LLMs), such as schema-guided KGC and reference knowledge integration, have proven efficient. However, these methods are constrained by their reliance on manually defined schema, single-document processing, and public-domain references, making them less effective for domain-specific corpora that exhibit complex knowledge dependencies and specificity, as well as limited reference knowledge. To address these challenges, we propose LKD-KGC, a novel framework for unsupervised domain-specific KG construction. LKD-KGC autonomously analyzes document repositories to infer knowledge dependencies, determines optimal processing sequences via LLM driven prioritization, and autoregressively generates entity schema by integrating hierarchical inter-document contexts. This schema guides the unsupervised extraction of entities and relationships, eliminating reliance on predefined structures or external knowledge. Extensive experiments show that compared with state-of-the-art baselines, LKD-KGC generally achieves improvements of 10% to 20% in both precision and recall rate, demonstrating its potential in constructing high-quality domain-specific KGs.