GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning
作者: Costas Mavromatis, George Karypis
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-05-30
💡 一句话要点
提出GNN-RAG框架,结合图神经网络和大型语言模型进行知识图谱问答
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱问答 图神经网络 大型语言模型 检索增强生成 多跳推理
📋 核心要点
- 现有KGQA方法难以有效利用KG中的复杂图结构信息,且大型语言模型缺乏在KG上的推理能力。
- GNN-RAG框架利用GNN在KG子图上进行推理,提取推理路径,并结合LLM的自然语言处理能力进行问答。
- 实验结果表明,GNN-RAG在WebQSP和CWQ数据集上取得了SOTA性能,尤其在多跳和多实体问题上提升显著。
📝 摘要(中文)
知识图谱(KGs)以三元组(头实体,关系,尾实体)的形式表示人工构建的事实知识,这些三元组共同构成一个图。知识图谱问答(KGQA)的任务是回答自然语言问题,并将推理过程建立在KG提供的信息之上。大型语言模型(LLMs)由于其卓越的自然语言理解能力,是QA任务中最先进的模型。另一方面,图神经网络(GNNs)已被广泛用于KGQA,因为它们可以处理KG中存储的复杂图信息。在这项工作中,我们介绍GNN-RAG,一种新颖的方法,以检索增强生成(RAG)的风格结合LLM的语言理解能力和GNN的推理能力。首先,GNN在密集的KG子图上进行推理,以检索给定问题的答案候选。其次,提取KG中连接问题实体和答案候选的最短路径,以表示KG推理路径。提取的路径被口头化,并作为RAG的输入,用于LLM推理。在我们的GNN-RAG框架中,GNN充当密集子图推理器以提取有用的图信息,而LLM利用其自然语言处理能力进行最终的KGQA。此外,我们开发了一种检索增强(RA)技术,以进一步提高GNN-RAG的KGQA性能。实验结果表明,GNN-RAG在两个广泛使用的KGQA基准(WebQSP和CWQ)中实现了最先进的性能,使用7B调优的LLM超越或匹配了GPT-4的性能。此外,GNN-RAG在多跳和多实体问题上表现出色,在答案F1方面超过了竞争方法8.9-15.5个百分点。
🔬 方法详解
问题定义:论文旨在解决知识图谱问答(KGQA)问题,即如何利用知识图谱回答自然语言问题。现有方法,特别是基于大型语言模型(LLM)的方法,虽然在自然语言理解方面表现出色,但在利用KG的结构化信息进行推理方面存在不足。传统的KGQA方法,如基于GNN的方法,虽然擅长处理图结构,但可能无法充分利用LLM的强大语言理解能力。
核心思路:论文的核心思路是将GNN的图推理能力与LLM的语言理解能力结合起来,通过检索增强生成(RAG)的方式,让GNN负责从KG中提取相关信息,然后将这些信息以自然语言的形式提供给LLM,让LLM进行最终的答案生成。这样既能利用KG的结构化知识,又能发挥LLM的语言优势。
技术框架:GNN-RAG框架主要包含以下几个阶段:1) GNN推理:使用GNN在KG的密集子图上进行推理,为给定的问题检索候选答案。2) 路径提取:提取KG中连接问题实体和候选答案的最短路径,这些路径代表了KG的推理过程。3) 路径口头化:将提取的路径转换为自然语言描述。4) LLM推理:将口头化的路径作为输入,利用LLM进行推理,生成最终答案。此外,还引入了检索增强(RA)技术,进一步提升性能。
关键创新:该方法最重要的创新点在于将GNN和LLM以RAG的方式进行结合,GNN负责知识检索和推理路径提取,LLM负责自然语言理解和答案生成。这种结合方式充分利用了两种模型的优势,克服了各自的局限性。与现有方法相比,GNN-RAG能够更有效地利用KG的结构化信息,并生成更准确的答案。
关键设计:GNN的具体选择和训练方式未知,但推测使用了常见的GNN变体,如GCN或GAT。路径提取算法使用了最短路径算法。路径口头化过程未知,但推测使用了模板或规则进行转换。LLM的选择和训练方式未知,但使用了7B参数的调优LLM。检索增强(RA)技术的具体实现方式未知。
🖼️ 关键图片
📊 实验亮点
GNN-RAG在WebQSP和CWQ两个KGQA基准数据集上取得了SOTA性能,超越或匹配了GPT-4的性能(使用7B调优的LLM)。在多跳和多实体问题上,GNN-RAG的答案F1指标比其他方法高出8.9-15.5个百分点,表明其在复杂推理场景下具有显著优势。
🎯 应用场景
GNN-RAG框架可应用于智能问答系统、知识图谱构建与维护、推荐系统等领域。通过结合图神经网络和大型语言模型,可以更有效地利用知识图谱中的信息,提高问答准确率和用户体验。该研究对于构建更智能、更可靠的知识驱动型应用具有重要意义。
📄 摘要(原文)
Knowledge Graphs (KGs) represent human-crafted factual knowledge in the form of triplets (head, relation, tail), which collectively form a graph. Question Answering over KGs (KGQA) is the task of answering natural questions grounding the reasoning to the information provided by the KG. Large Language Models (LLMs) are the state-of-the-art models for QA tasks due to their remarkable ability to understand natural language. On the other hand, Graph Neural Networks (GNNs) have been widely used for KGQA as they can handle the complex graph information stored in the KG. In this work, we introduce GNN-RAG, a novel method for combining language understanding abilities of LLMs with the reasoning abilities of GNNs in a retrieval-augmented generation (RAG) style. First, a GNN reasons over a dense KG subgraph to retrieve answer candidates for a given question. Second, the shortest paths in the KG that connect question entities and answer candidates are extracted to represent KG reasoning paths. The extracted paths are verbalized and given as input for LLM reasoning with RAG. In our GNN-RAG framework, the GNN acts as a dense subgraph reasoner to extract useful graph information, while the LLM leverages its natural language processing ability for ultimate KGQA. Furthermore, we develop a retrieval augmentation (RA) technique to further boost KGQA performance with GNN-RAG. Experimental results show that GNN-RAG achieves state-of-the-art performance in two widely used KGQA benchmarks (WebQSP and CWQ), outperforming or matching GPT-4 performance with a 7B tuned LLM. In addition, GNN-RAG excels on multi-hop and multi-entity questions outperforming competing approaches by 8.9--15.5% points at answer F1.