GS-KGC: A Generative Subgraph-based Framework for Knowledge Graph Completion with Large Language Models
作者: Rui Yang, Jiahao Zhu, Jianping Man, Hongze Liu, Li Fang, Yi Zhou
分类: cs.CL, cs.AI
发布日期: 2024-08-20 (更新: 2025-01-03)
💡 一句话要点
GS-KGC:基于生成式子图的知识图谱补全框架,利用大语言模型进行推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱补全 大语言模型 子图推理 问答系统 上下文学习
📋 核心要点
- 现有基于LLM的知识图谱补全方法主要关注提示工程,忽略了细粒度子图信息对LLM推理的辅助作用。
- GS-KGC框架利用子图信息作为上下文推理,通过问答方式实现知识图谱补全,提升LLM生成答案的准确性。
- 实验结果表明,GS-KGC在多个数据集上优于现有基于LLM的模型,例如在FB15k-237N数据集上Hits@3指标提升了5.6%。
📝 摘要(中文)
知识图谱补全(KGC)侧重于识别知识图谱(KG)中缺失的三元组,这对于许多下游应用至关重要。鉴于大型语言模型(LLM)的快速发展,一些基于LLM的方法被提出用于KGC任务。然而,它们中的大多数侧重于提示工程,而忽略了更细粒度的子图信息可以帮助LLM生成更准确的答案。在本文中,我们提出了一种新的补全框架,称为生成式子图KGC(GS-KGC),它利用子图信息作为上下文推理,并采用问答方法来实现KGC任务。该框架主要包括一种子图划分算法,旨在生成负样本和邻居。具体来说,负样本可以鼓励LLM生成更广泛的答案,而邻居则为LLM推理提供额外的上下文信息。此外,我们发现GS-KGC可以发现KG中潜在的三元组以及KG之外的新事实。在四个常见的KGC数据集上进行的实验突出了所提出的GS-KGC的优势,例如,在FB15k-237N上,与基于LLM的模型CP-KGC相比,Hits@3提高了5.6%,在ICEWS14上,与基于LLM的模型TECHS相比,提高了9.3%。
🔬 方法详解
问题定义:知识图谱补全旨在发现知识图谱中缺失的三元组关系。现有基于LLM的方法主要依赖于prompt工程,缺乏对知识图谱结构信息的有效利用,导致推理精度受限。
核心思路:GS-KGC的核心在于利用子图信息增强LLM的推理能力。通过构建包含邻居节点和负样本的子图,为LLM提供更丰富的上下文信息,引导其生成更准确的答案。
技术框架:GS-KGC框架包含以下主要模块:1) 子图划分算法:生成包含邻居节点和负样本的子图;2) 问答模块:将子图信息转化为问答形式,输入LLM进行推理;3) 答案生成模块:LLM根据上下文信息生成答案,完成知识图谱补全任务。
关键创新:GS-KGC的关键创新在于利用子图信息作为LLM的上下文,从而提升LLM在知识图谱补全任务中的推理能力。与现有方法相比,GS-KGC更加注重知识图谱的结构信息,能够发现KG中潜在的三元组以及KG之外的新事实。
关键设计:子图划分算法是GS-KGC的关键设计之一,其目标是生成高质量的负样本和邻居节点。具体的划分策略和参数设置(例如邻居节点数量、负样本比例)会影响最终的补全效果。此外,如何将子图信息有效地编码为LLM可理解的输入也是一个重要的技术细节。
🖼️ 关键图片
📊 实验亮点
GS-KGC在四个常见KGC数据集上进行了实验,结果表明其性能优于现有基于LLM的模型。例如,在FB15k-237N数据集上,GS-KGC的Hits@3指标比CP-KGC提高了5.6%,在ICEWS14数据集上,比TECHS提高了9.3%。实验结果验证了GS-KGC利用子图信息提升LLM推理能力的有效性。
🎯 应用场景
GS-KGC可应用于智能问答、推荐系统、语义搜索等领域。通过补全知识图谱,可以提高这些应用的信息检索和推理能力,从而为用户提供更准确、更全面的服务。该研究还有助于构建更完善的知识库,促进人工智能技术的发展。
📄 摘要(原文)
Knowledge graph completion (KGC) focuses on identifying missing triples in a knowledge graph (KG) , which is crucial for many downstream applications. Given the rapid development of large language models (LLMs), some LLM-based methods are proposed for KGC task. However, most of them focus on prompt engineering while overlooking the fact that finer-grained subgraph information can aid LLMs in generating more accurate answers. In this paper, we propose a novel completion framework called \textbf{G}enerative \textbf{S}ubgraph-based KGC (GS-KGC), which utilizes subgraph information as contextual reasoning and employs a QA approach to achieve the KGC task. This framework primarily includes a subgraph partitioning algorithm designed to generate negatives and neighbors. Specifically, negatives can encourage LLMs to generate a broader range of answers, while neighbors provide additional contextual insights for LLM reasoning. Furthermore, we found that GS-KGC can discover potential triples within the KGs and new facts beyond the KGs. Experiments conducted on four common KGC datasets highlight the advantages of the proposed GS-KGC, e.g., it shows a 5.6\% increase in Hits@3 compared to the LLM-based model CP-KGC on the FB15k-237N, and a 9.3\% increase over the LLM-based model TECHS on the ICEWS14.