GS-KGC: A Generative Subgraph-based Framework for Knowledge Graph Completion with Large Language Models

作者: Rui Yang, Jiahao Zhu, Jianping Man, Hongze Liu, Li Fang, Yi Zhou

分类: cs.CL, cs.AI

发布日期: 2024-08-20 (更新: 2025-01-03)

💡 一句话要点

GS-KGC：基于生成式子图的知识图谱补全框架，利用大语言模型进行推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识图谱补全 大语言模型 子图推理 问答系统 上下文学习

📋 核心要点

现有基于LLM的知识图谱补全方法主要关注提示工程，忽略了细粒度子图信息对LLM推理的辅助作用。
GS-KGC框架利用子图信息作为上下文推理，通过问答方式实现知识图谱补全，提升LLM生成答案的准确性。
实验结果表明，GS-KGC在多个数据集上优于现有基于LLM的模型，例如在FB15k-237N数据集上Hits@3指标提升了5.6%。

📝 摘要（中文）

知识图谱补全(KGC)侧重于识别知识图谱(KG)中缺失的三元组，这对于许多下游应用至关重要。鉴于大型语言模型(LLM)的快速发展，一些基于LLM的方法被提出用于KGC任务。然而，它们中的大多数侧重于提示工程，而忽略了更细粒度的子图信息可以帮助LLM生成更准确的答案。在本文中，我们提出了一种新的补全框架，称为生成式子图KGC(GS-KGC)，它利用子图信息作为上下文推理，并采用问答方法来实现KGC任务。该框架主要包括一种子图划分算法，旨在生成负样本和邻居。具体来说，负样本可以鼓励LLM生成更广泛的答案，而邻居则为LLM推理提供额外的上下文信息。此外，我们发现GS-KGC可以发现KG中潜在的三元组以及KG之外的新事实。在四个常见的KGC数据集上进行的实验突出了所提出的GS-KGC的优势，例如，在FB15k-237N上，与基于LLM的模型CP-KGC相比，Hits@3提高了5.6%，在ICEWS14上，与基于LLM的模型TECHS相比，提高了9.3%。

🔬 方法详解

问题定义：知识图谱补全旨在发现知识图谱中缺失的三元组关系。现有基于LLM的方法主要依赖于prompt工程，缺乏对知识图谱结构信息的有效利用，导致推理精度受限。

核心思路：GS-KGC的核心在于利用子图信息增强LLM的推理能力。通过构建包含邻居节点和负样本的子图，为LLM提供更丰富的上下文信息，引导其生成更准确的答案。

技术框架：GS-KGC框架包含以下主要模块：1) 子图划分算法：生成包含邻居节点和负样本的子图；2) 问答模块：将子图信息转化为问答形式，输入LLM进行推理；3) 答案生成模块：LLM根据上下文信息生成答案，完成知识图谱补全任务。

关键创新：GS-KGC的关键创新在于利用子图信息作为LLM的上下文，从而提升LLM在知识图谱补全任务中的推理能力。与现有方法相比，GS-KGC更加注重知识图谱的结构信息，能够发现KG中潜在的三元组以及KG之外的新事实。

关键设计：子图划分算法是GS-KGC的关键设计之一，其目标是生成高质量的负样本和邻居节点。具体的划分策略和参数设置（例如邻居节点数量、负样本比例）会影响最终的补全效果。此外，如何将子图信息有效地编码为LLM可理解的输入也是一个重要的技术细节。

🖼️ 关键图片

📊 实验亮点

GS-KGC在四个常见KGC数据集上进行了实验，结果表明其性能优于现有基于LLM的模型。例如，在FB15k-237N数据集上，GS-KGC的Hits@3指标比CP-KGC提高了5.6%，在ICEWS14数据集上，比TECHS提高了9.3%。实验结果验证了GS-KGC利用子图信息提升LLM推理能力的有效性。

🎯 应用场景

GS-KGC可应用于智能问答、推荐系统、语义搜索等领域。通过补全知识图谱，可以提高这些应用的信息检索和推理能力，从而为用户提供更准确、更全面的服务。该研究还有助于构建更完善的知识库，促进人工智能技术的发展。

📄 摘要（原文）

Knowledge graph completion (KGC) focuses on identifying missing triples in a knowledge graph (KG) , which is crucial for many downstream applications. Given the rapid development of large language models (LLMs), some LLM-based methods are proposed for KGC task. However, most of them focus on prompt engineering while overlooking the fact that finer-grained subgraph information can aid LLMs in generating more accurate answers. In this paper, we propose a novel completion framework called \textbf{G}enerative \textbf{S}ubgraph-based KGC (GS-KGC), which utilizes subgraph information as contextual reasoning and employs a QA approach to achieve the KGC task. This framework primarily includes a subgraph partitioning algorithm designed to generate negatives and neighbors. Specifically, negatives can encourage LLMs to generate a broader range of answers, while neighbors provide additional contextual insights for LLM reasoning. Furthermore, we found that GS-KGC can discover potential triples within the KGs and new facts beyond the KGs. Experiments conducted on four common KGC datasets highlight the advantages of the proposed GS-KGC, e.g., it shows a 5.6\% increase in Hits@3 compared to the LLM-based model CP-KGC on the FB15k-237N, and a 9.3\% increase over the LLM-based model TECHS on the ICEWS14.

GS-KGC: A Generative Subgraph-based Framework for Knowledge Graph Completion with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理