KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering

📄 arXiv: 2509.04716v1 📥 PDF

作者: Yushi Sun, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-09-05

备注: Accepted by EMNLP Findings 2025


💡 一句话要点

KERAG:知识增强的检索增强生成框架,提升复杂问答覆盖率与准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱问答 检索增强生成 大型语言模型 思维链 知识检索 信息过滤 子图挖掘

📋 核心要点

  1. 传统KGQA方法依赖严格的语义解析,导致知识覆盖率不足,难以应对复杂问题。
  2. KERAG通过检索更广泛的知识子图,并结合过滤和总结,提升RAG的知识覆盖率。
  3. 实验结果表明,KERAG在问答质量上显著优于现有方法,包括GPT-4o等大型模型。

📝 摘要(中文)

检索增强生成(RAG)通过整合外部数据来缓解大型语言模型(LLM)中的幻觉问题,其中知识图谱(KG)为问答提供了关键信息。传统的知识图谱问答(KGQA)方法依赖于语义解析,通常只检索生成答案严格必需的知识,因此由于严格的模式要求和语义歧义,常常面临覆盖率低的问题。我们提出了KERAG,一种新颖的基于KG的RAG流程,通过检索更广泛的子图来增强QA覆盖率,该子图可能包含相关信息。我们的检索-过滤-总结方法,结合微调的LLM,用于知识子图上的思维链推理,减少了噪声,并提高了简单和复杂问题的QA效果。实验表明,KERAG在质量上超过了最先进的解决方案约7%,并且超过了GPT-4o (Tool) 10-21%。

🔬 方法详解

问题定义:论文旨在解决知识图谱问答中,由于传统方法依赖严格的语义解析,导致知识覆盖率不足的问题。现有方法难以处理复杂问题,并且容易受到知识图谱模式限制和语义歧义的影响,从而影响问答的准确性和完整性。

核心思路:KERAG的核心思路是通过检索更广泛的知识子图,而非仅仅依赖于精确匹配的知识。这样可以增加相关信息的覆盖范围,从而提高回答问题的可能性。同时,通过后续的过滤和总结步骤,可以减少噪声,提取关键信息。

技术框架:KERAG包含三个主要阶段:检索、过滤和总结。首先,检索阶段从知识图谱中检索一个更广泛的子图,该子图可能包含与问题相关的实体和关系。然后,过滤阶段对检索到的子图进行过滤,去除不相关或冗余的信息。最后,总结阶段利用微调的LLM,基于过滤后的子图进行思维链推理,生成最终答案。

关键创新:KERAG的关键创新在于其检索策略,即不再局限于精确匹配的知识,而是检索一个更广泛的、可能包含相关信息的子图。这种方法可以显著提高知识覆盖率,从而更好地应对复杂问题。此外,结合过滤和总结步骤,可以有效减少噪声,提高答案的准确性。

关键设计:KERAG的关键设计包括:(1) 检索策略:采用基于实体和关系的扩展检索方法,检索与问题相关的多个跳数的子图。(2) 过滤策略:利用LLM对检索到的三元组进行相关性评分,并设定阈值进行过滤。(3) 总结策略:使用微调的LLM进行思维链推理,生成最终答案。具体的参数设置和损失函数等细节在论文中进行了详细描述(未知)。

📊 实验亮点

KERAG在问答质量上显著优于现有方法,在实验中,KERAG超过了最先进的解决方案约7%,并且超过了GPT-4o (Tool) 10-21%。这些结果表明,KERAG能够有效地提高知识图谱问答的准确性和覆盖率,尤其是在处理复杂问题时。

🎯 应用场景

KERAG可应用于各种需要知识图谱支持的问答场景,例如智能客服、医疗诊断、金融分析等。通过提供更全面、准确的知识,KERAG可以帮助用户更好地理解问题,并获得更可靠的答案。未来,KERAG可以进一步扩展到其他知识密集型任务,例如知识图谱补全、关系抽取等。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) mitigates hallucination in Large Language Models (LLMs) by incorporating external data, with Knowledge Graphs (KGs) offering crucial information for question answering. Traditional Knowledge Graph Question Answering (KGQA) methods rely on semantic parsing, which typically retrieves knowledge strictly necessary for answer generation, thus often suffer from low coverage due to rigid schema requirements and semantic ambiguity. We present KERAG, a novel KG-based RAG pipeline that enhances QA coverage by retrieving a broader subgraph likely to contain relevant information. Our retrieval-filtering-summarization approach, combined with fine-tuned LLMs for Chain-of-Thought reasoning on knowledge sub-graphs, reduces noises and improves QA for both simple and complex questions. Experiments demonstrate that KERAG surpasses state-of-the-art solutions by about 7% in quality and exceeds GPT-4o (Tool) by 10-21%.