KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering
作者: Yushi Sun, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-09-05
备注: Accepted by EMNLP Findings 2025
💡 一句话要点
KERAG:知识增强的检索增强生成框架,提升复杂问答覆盖率与准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱问答 检索增强生成 大型语言模型 思维链推理 信息检索
📋 核心要点
- 传统KGQA方法依赖语义解析,受限于知识图谱的严格模式和语义歧义,导致覆盖率不足,难以处理复杂问题。
- KERAG通过检索更广泛的知识子图,并结合检索-过滤-总结流程,提升了RAG框架的知识覆盖率和问答准确性。
- 实验结果表明,KERAG在问答质量上显著优于现有技术,包括GPT-4o (Tool),证明了其有效性。
📝 摘要(中文)
检索增强生成(RAG)通过整合外部数据来缓解大型语言模型(LLM)中的幻觉问题,其中知识图谱(KG)为问答提供了关键信息。传统的知识图谱问答(KGQA)方法依赖于语义解析,通常只检索生成答案严格必需的知识,因此由于严格的模式要求和语义模糊性,常常面临覆盖率低的问题。我们提出了KERAG,一种新颖的基于KG的RAG流程,通过检索更广泛的子图来增强QA覆盖率,该子图可能包含相关信息。我们的检索-过滤-总结方法,结合微调的LLM对知识子图进行思维链推理,减少了噪声,并提高了简单和复杂问题的QA效果。实验表明,KERAG在质量上超过了最先进的解决方案约7%,并超过了GPT-4o (Tool) 10-21%。
🔬 方法详解
问题定义:现有知识图谱问答系统(KGQA)主要依赖于语义解析,这种方法要求精确匹配查询与知识图谱中的实体和关系。然而,现实世界的知识图谱往往存在模式不完整、实体关系复杂以及语义歧义等问题,导致语义解析难以覆盖所有相关信息,从而限制了问答系统的覆盖率和准确性。尤其是在处理复杂问题时,需要多个知识片段进行推理,语义解析的局限性更加明显。
核心思路:KERAG的核心思路是通过检索更广泛的知识子图来增加相关信息的覆盖率。不同于传统方法只检索严格必需的知识,KERAG旨在检索一个包含潜在相关信息的更大的子图。然后,通过过滤和总结步骤,从这个更大的子图中提取出最相关的信息,并将其提供给大型语言模型(LLM)进行推理和答案生成。这种方法旨在克服语义解析的局限性,提高问答系统的鲁棒性和覆盖率。
技术框架:KERAG包含三个主要阶段:检索、过滤和总结。首先,检索阶段使用一种改进的检索策略,从知识图谱中检索一个包含潜在相关信息的子图。其次,过滤阶段使用LLM对检索到的子图进行过滤,去除噪声和不相关的信息。最后,总结阶段使用LLM对过滤后的子图进行总结,提取出最关键的信息,并将其作为上下文提供给LLM进行问答。整个流程结合了知识图谱的结构化知识和LLM的推理能力。
关键创新:KERAG的关键创新在于其检索策略和过滤机制。传统的KGQA方法通常使用精确匹配或基于规则的检索方法,而KERAG采用了一种更灵活的检索策略,允许检索更广泛的知识子图。此外,KERAG使用LLM进行过滤,能够根据上下文信息动态地识别和去除不相关的信息,从而提高了检索结果的质量。这种基于LLM的过滤机制是与现有方法的本质区别。
关键设计:KERAG的关键设计包括:1) 检索策略:采用基于嵌入的相似度搜索,允许检索语义相关的实体和关系;2) 过滤机制:使用微调的LLM进行二元分类,判断每个知识片段是否与问题相关;3) 总结策略:使用LLM对过滤后的知识片段进行总结,生成简洁的上下文信息;4) 思维链推理:利用微调的LLM进行思维链推理,逐步推导出答案。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KERAG在问答质量上显著优于现有技术。在多个基准数据集上,KERAG的性能超过了最先进的解决方案约7%,并且比GPT-4o (Tool)高出10-21%。这些结果证明了KERAG在提高问答系统覆盖率和准确性方面的有效性。此外,实验还验证了KERAG的各个模块的有效性,表明检索、过滤和总结三个阶段都对最终性能做出了贡献。
🎯 应用场景
KERAG具有广泛的应用前景,可应用于智能客服、医疗问答、金融分析等领域。通过结合知识图谱和大型语言模型,KERAG能够提供更准确、更全面的答案,帮助用户解决复杂问题。此外,KERAG还可以用于知识图谱的自动构建和维护,提高知识图谱的质量和可用性。未来,KERAG有望成为构建下一代智能问答系统的关键技术。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) mitigates hallucination in Large Language Models (LLMs) by incorporating external data, with Knowledge Graphs (KGs) offering crucial information for question answering. Traditional Knowledge Graph Question Answering (KGQA) methods rely on semantic parsing, which typically retrieves knowledge strictly necessary for answer generation, thus often suffer from low coverage due to rigid schema requirements and semantic ambiguity. We present KERAG, a novel KG-based RAG pipeline that enhances QA coverage by retrieving a broader subgraph likely to contain relevant information. Our retrieval-filtering-summarization approach, combined with fine-tuned LLMs for Chain-of-Thought reasoning on knowledge sub-graphs, reduces noises and improves QA for both simple and complex questions. Experiments demonstrate that KERAG surpasses state-of-the-art solutions by about 7% in quality and exceeds GPT-4o (Tool) by 10-21%.