Detecting Hallucinations in Graph Retrieval-Augmented Generation via Attention Patterns and Semantic Alignment
作者: Shanghao Li, Jinda Han, Yibo Wang, Yuanjie Zhu, Zihe Song, Langzhou He, Kenan Kamel A Alghythee, Philip S. Yu
分类: cs.CL, cs.AI
发布日期: 2025-12-09
💡 一句话要点
提出GGA模型,通过注意力模式和语义对齐检测GraphRAG中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GraphRAG 幻觉检测 知识图谱 可解释性 大型语言模型
📋 核心要点
- 现有GraphRAG系统中的LLM难以有效利用知识图谱中的关系信息,导致生成内容与检索知识不一致,产生幻觉。
- 论文提出PRD和SAS两个指标,用于衡量LLM对知识图谱路径的依赖程度和语义对齐程度,从而分析幻觉产生的原因。
- 实验表明,提出的GGA幻觉检测器在知识问答任务上优于现有基线方法,证明了其有效性。
📝 摘要(中文)
基于图的检索增强生成(GraphRAG)通过整合从知识图谱检索到的线性化子图中的外部知识来增强大型语言模型(LLM)。然而,LLM难以理解这些输入中的关系和拓扑信息,导致产生与检索到的知识不一致的幻觉。为了分析LLM在生成过程中如何关注和保留结构化知识,我们提出了两个轻量级的可解释性指标:路径依赖度(PRD),用于衡量对最短路径三元组的过度依赖;语义对齐分数(SAS),用于评估模型内部表示与检索到的知识的对齐程度。通过在基于知识的问答任务上的实证分析,我们识别出与过度依赖显著路径和弱语义基础相关的失败模式,表现为高PRD和低SAS分数。我们进一步开发了一种轻量级的后验幻觉检测器,图基础和对齐(GGA),其在AUC和F1指标上优于强大的语义和基于置信度的基线。通过将幻觉分析建立在机制可解释性之上,我们的工作深入了解了LLM中的结构性限制如何导致幻觉,从而为未来更可靠的GraphRAG系统的设计提供信息。
🔬 方法详解
问题定义:论文旨在解决GraphRAG系统中,大型语言模型(LLM)由于难以有效利用知识图谱中的关系和拓扑信息,从而产生与检索知识不一致的幻觉问题。现有方法缺乏对LLM如何处理和保留结构化知识的深入理解,难以有效检测和缓解幻觉。
核心思路:论文的核心思路是通过可解释性分析,理解LLM在GraphRAG中产生幻觉的机制。具体来说,通过量化LLM对知识图谱路径的依赖程度(PRD)和内部表示与检索知识的语义对齐程度(SAS),来识别幻觉产生的关键因素。基于此,设计轻量级的幻觉检测器GGA,利用PRD和SAS信息来判断生成内容是否可靠。
技术框架:整体框架包含三个主要部分:1)使用GraphRAG生成答案;2)计算PRD和SAS指标,评估LLM对检索到的知识的利用情况;3)使用GGA检测器,基于PRD和SAS判断生成答案中是否存在幻觉。GGA检测器是一个后验模型,不需要修改LLM的训练过程。
关键创新:论文的关键创新在于提出了PRD和SAS两个可解释性指标,将幻觉检测与LLM的内部机制联系起来。PRD衡量LLM对最短路径三元组的过度依赖,SAS评估LLM内部表示与检索知识的语义一致性。这两个指标为理解和解决GraphRAG中的幻觉问题提供了新的视角。
关键设计:PRD的计算基于LLM的注意力权重,衡量模型对最短路径三元组的关注程度。SAS的计算基于LLM生成内容和检索知识的语义嵌入,使用余弦相似度来评估对齐程度。GGA检测器使用PRD和SAS作为输入特征,训练一个分类器来判断生成内容是否存在幻觉。具体分类器类型未知,论文中可能未明确说明。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的GGA幻觉检测器在知识问答任务上取得了显著的性能提升,AUC和F1指标均优于现有的语义和基于置信度的基线方法。具体提升幅度未知,但摘要中明确指出GGA“outperforms strong semantic and confidence-based baselines across AUC and F1”。这验证了PRD和SAS指标的有效性,并证明了基于可解释性分析的幻觉检测方法的潜力。
🎯 应用场景
该研究成果可应用于各种需要利用知识图谱进行问答、推理和生成的场景,例如智能客服、医疗诊断、金融分析等。通过提高GraphRAG系统的可靠性,可以减少错误信息的传播,提升用户体验,并为决策提供更准确的依据。未来的研究可以进一步探索如何利用PRD和SAS等指标来改进LLM的训练过程,从而从根本上减少幻觉的产生。
📄 摘要(原文)
Graph-based Retrieval-Augmented Generation (GraphRAG) enhances Large Language Models (LLMs) by incorporating external knowledge from linearized subgraphs retrieved from knowledge graphs. However, LLMs struggle to interpret the relational and topological information in these inputs, resulting in hallucinations that are inconsistent with the retrieved knowledge. To analyze how LLMs attend to and retain structured knowledge during generation, we propose two lightweight interpretability metrics: Path Reliance Degree (PRD), which measures over-reliance on shortest-path triples, and Semantic Alignment Score (SAS), which assesses how well the model's internal representations align with the retrieved knowledge. Through empirical analysis on a knowledge-based QA task, we identify failure patterns associated with over-reliance on salient paths and weak semantic grounding, as indicated by high PRD and low SAS scores. We further develop a lightweight post-hoc hallucination detector, Graph Grounding and Alignment (GGA), which outperforms strong semantic and confidence-based baselines across AUC and F1. By grounding hallucination analysis in mechanistic interpretability, our work offers insights into how structural limitations in LLMs contribute to hallucinations, informing the design of more reliable GraphRAG systems in the future.