Detecting Hallucinations in Retrieval-Augmented Generation via Semantic-level Internal Reasoning Graph

📄 arXiv: 2601.03052v1 📥 PDF

作者: Jianpeng Hu, Yanzeng Li, Jialun Zhong, Wenfa Qi, Lei Zou

分类: cs.CL

发布日期: 2026-01-06


💡 一句话要点

提出基于语义级内部推理图的RAG幻觉检测方法,提升事实一致性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 幻觉检测 语义推理图 忠实性幻觉

📋 核心要点

  1. 现有RAG系统仍存在忠实性幻觉问题,现有检测方法难以有效捕捉和利用模型内部推理过程。
  2. 论文提出构建语义级内部推理图,更准确地表示LLM的推理依赖关系,用于幻觉检测。
  3. 实验表明,该方法在RAGTruth和Dolly-15k数据集上优于现有方法,提升了幻觉检测性能。

📝 摘要(中文)

本文提出了一种基于语义级内部推理图的检索增强生成(RAG)系统中幻觉检测方法。尽管基于大型语言模型(LLM)的RAG系统在减少事实性幻觉方面取得了显著进展,但仍然存在忠实性幻觉。以往检测忠实性幻觉的方法要么忽略了捕捉模型内部推理过程,要么对这些特征处理得过于粗糙,导致判别器难以学习。本文将逐层相关性传播算法从token级别扩展到语义级别,构建基于归因向量的内部推理图,从而提供更真实的语义级别依赖关系表示。此外,我们设计了一个基于小型预训练语言模型的通用框架,利用LLM推理中的依赖关系进行训练和幻觉检测,该框架可以通过阈值动态调整正确样本的通过率。实验结果表明,与RAGTruth和Dolly-15k上的最先进基线相比,我们的方法实现了更好的整体性能。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)系统中存在的忠实性幻觉问题。现有方法要么忽略了模型内部的推理过程,要么对这些过程的特征提取过于粗糙,导致幻觉检测器难以有效学习和区分真实信息与幻觉信息。因此,如何更准确地捕捉和利用LLM的内部推理过程是关键挑战。

核心思路:论文的核心思路是构建一个语义级别的内部推理图,以更准确地表示LLM在生成答案时的推理依赖关系。通过将传统的token级别的相关性传播扩展到语义级别,可以更好地捕捉LLM内部的语义关联,从而为幻觉检测提供更可靠的依据。这样设计的目的是为了克服现有方法无法有效利用LLM内部推理过程的局限性。

技术框架:整体框架包括以下几个主要阶段:1) 使用扩展的逐层相关性传播算法,从token级别到语义级别构建内部推理图。2) 利用构建的内部推理图,设计一个基于小型预训练语言模型的通用框架。3) 使用该框架进行训练和幻觉检测,并通过阈值动态调整正确样本的通过率。该框架旨在利用LLM推理中的依赖关系,提高幻觉检测的准确性。

关键创新:最重要的技术创新点在于将逐层相关性传播算法从token级别扩展到语义级别,从而构建了语义级别的内部推理图。与现有方法相比,这种方法能够更准确地捕捉LLM内部的语义关联,为幻觉检测提供更可靠的依据。此外,动态调整正确样本通过率的机制也是一个创新点,可以更好地平衡精度和召回率。

关键设计:论文的关键设计包括:1) 语义级别相关性传播算法的具体实现,如何将token级别的相关性映射到语义级别。2) 小型预训练语言模型的选择和训练策略,如何利用该模型来学习和利用内部推理图中的依赖关系。3) 动态调整阈值的具体方法,如何根据模型的表现来调整正确样本的通过率,以优化幻觉检测的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在RAGTruth和Dolly-15k数据集上取得了显著的性能提升,优于现有的最先进基线方法。具体的性能数据(例如准确率、召回率等)在论文中进行了详细的展示和对比,证明了该方法在幻觉检测方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要确保信息准确性和可靠性的RAG系统中,例如智能客服、知识问答、内容创作等领域。通过提高RAG系统的事实一致性,可以减少错误信息的传播,提升用户体验,并增强人们对AI系统的信任。未来,该方法可以进一步扩展到其他类型的生成模型和任务中。

📄 摘要(原文)

The Retrieval-augmented generation (RAG) system based on Large language model (LLM) has made significant progress. It can effectively reduce factuality hallucinations, but faithfulness hallucinations still exist. Previous methods for detecting faithfulness hallucinations either neglect to capture the models' internal reasoning processes or handle those features coarsely, making it difficult for discriminators to learn. This paper proposes a semantic-level internal reasoning graph-based method for detecting faithfulness hallucination. Specifically, we first extend the layer-wise relevance propagation algorithm from the token level to the semantic level, constructing an internal reasoning graph based on attribution vectors. This provides a more faithful semantic-level representation of dependency. Furthermore, we design a general framework based on a small pre-trained language model to utilize the dependencies in LLM's reasoning for training and hallucination detection, which can dynamically adjust the pass rate of correct samples through a threshold. Experimental results demonstrate that our method achieves better overall performance compared to state-of-the-art baselines on RAGTruth and Dolly-15k.