Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts
作者: Wenyu Huang, Guancheng Zhou, Mirella Lapata, Pavlos Vougiouklis, Sebastien Montella, Jeff Z. Pan
分类: cs.CL
发布日期: 2024-05-10
💡 一句话要点
提出LTGen基准,研究知识图谱增强大语言模型在长尾知识问答中的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识图谱 长尾知识 问答系统 非参数知识 提示学习 LTGen基准
📋 核心要点
- 现有大语言模型在处理需要长尾知识的事实问答任务时表现不足,需要外部知识进行补充。
- 论文提出使用知识图谱(KG)三元组作为提示,增强大语言模型在长尾知识问答中的能力。
- 实验表明,KG提示显著提升了模型在LTGen基准上的表现,并能有效减少生成内容中的幻觉。
📝 摘要(中文)
大型语言模型(LLM)在执行各种自然语言处理任务中表现出色,但在处理需要广泛的现实世界知识的任务时仍然存在困难,尤其是在处理长尾事实(与长尾实体相关的事实)时。这种局限性突出了用非参数知识补充LLM的必要性。为了解决这个问题,我们分析了不同类型的非参数知识的影响,包括文本段落和知识图谱(KG)。由于LLM可能已经见过大多数事实问答数据集,为了方便我们的分析,我们提出了一个全自动的pipeline来创建一个基准,该基准需要长尾事实的知识来回答相关问题。使用这个pipeline,我们引入了LTGen基准。我们使用提出的基准评估了不同知识设置下的最先进的LLM。我们的实验表明,LLM单独很难回答这些问题,特别是当长尾级别很高或需要丰富的知识时。尽管如此,当使用非参数知识提示相同的模型时,其性能显着提高。我们观察到,在大多数情况下,使用KG三元组提示LLM超过了使用最先进的检索器的基于段落的提示。此外,虽然使用KG三元组和文档提示LLM并不能始终如一地提高知识覆盖率,但它可以显着减少生成内容中的幻觉。
🔬 方法详解
问题定义:论文旨在解决大语言模型在处理涉及长尾知识的事实问答任务时表现不佳的问题。现有方法,如直接使用大语言模型或仅依赖文本检索,无法有效获取和利用长尾知识,导致回答准确率低,甚至产生幻觉。
核心思路:论文的核心思路是利用知识图谱(KG)作为外部知识源,通过KG三元组提示大语言模型,从而增强模型对长尾知识的理解和推理能力。这种方法旨在弥补大语言模型自身知识的不足,并提供更准确、可靠的答案。
技术框架:论文的技术框架主要包括三个部分:1) LTGen基准数据集的自动构建pipeline;2) 基于文本段落的检索方法;3) 基于知识图谱三元组的提示方法。首先,使用LTGen pipeline生成包含长尾知识的问答对。然后,分别使用文本检索和KG三元组检索相关知识。最后,将检索到的知识作为提示输入大语言模型,生成答案。
关键创新:论文的关键创新在于:1) 提出了LTGen基准数据集,专门用于评估大语言模型在长尾知识问答方面的能力;2) 验证了知识图谱三元组作为提示,在长尾知识问答任务中优于传统的文本检索方法;3) 发现结合知识图谱和文本提示可以减少大语言模型生成内容中的幻觉。
关键设计:LTGen基准的构建pipeline包含实体选择、关系选择、问题生成等步骤,确保数据集包含丰富的长尾知识。在KG提示方面,论文直接将检索到的KG三元组拼接成文本,作为大语言模型的输入。没有涉及复杂的知识图谱嵌入或推理技术。具体的大语言模型采用的是现有的SOTA模型,如GPT-3等,没有进行模型结构的修改。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LTGen基准上,使用知识图谱三元组提示的大语言模型显著优于仅使用大语言模型或基于文本检索的方法。具体而言,KG提示在某些情况下可以将准确率提高10%以上。此外,结合KG和文本提示可以有效减少大语言模型生成内容中的幻觉,提高答案的可靠性。
🎯 应用场景
该研究成果可应用于智能问答系统、知识图谱构建、信息检索等领域。通过利用知识图谱增强大语言模型,可以提高问答系统的准确性和可靠性,尤其是在处理涉及专业领域或罕见知识的问题时。此外,该方法还可以用于自动构建知识图谱,并为信息检索提供更丰富的上下文信息。
📄 摘要(原文)
Although Large Language Models (LLMs) are effective in performing various NLP tasks, they still struggle to handle tasks that require extensive, real-world knowledge, especially when dealing with long-tail facts (facts related to long-tail entities). This limitation highlights the need to supplement LLMs with non-parametric knowledge. To address this issue, we analysed the effects of different types of non-parametric knowledge, including textual passage and knowledge graphs (KGs). Since LLMs have probably seen the majority of factual question-answering datasets already, to facilitate our analysis, we proposed a fully automatic pipeline for creating a benchmark that requires knowledge of long-tail facts for answering the involved questions. Using this pipeline, we introduce the LTGen benchmark. We evaluate state-of-the-art LLMs in different knowledge settings using the proposed benchmark. Our experiments show that LLMs alone struggle with answering these questions, especially when the long-tail level is high or rich knowledge is required. Nonetheless, the performance of the same models improved significantly when they were prompted with non-parametric knowledge. We observed that, in most cases, prompting LLMs with KG triples surpasses passage-based prompting using a state-of-the-art retriever. In addition, while prompting LLMs with both KG triples and documents does not consistently improve knowledge coverage, it can dramatically reduce hallucinations in the generated content.