Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval
作者: Md. Asraful Haque, Aasar Mehdi, Maaz Mahboob, Tamkeen Fatima
分类: cs.CL, cs.AI
发布日期: 2026-03-18
备注: 14 Pages, 5 Figures, 4 Tables
💡 一句话要点
提出领域知识增强的分层检索框架,缓解大语言模型幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 幻觉缓解 领域知识 分层检索 知识图谱
📋 核心要点
- 现有大语言模型易产生幻觉,在高风险领域可靠性不足,需要更有效的方法来保证生成内容的准确性。
- 提出领域知识增强的分层检索和验证架构,通过多阶段流程将LLM转变为经过验证的真理寻求者。
- 实验结果表明,该框架在多个基准测试中优于零样本基线,尤其在时间和数值精度要求高的领域。
📝 摘要(中文)
大型语言模型(LLMs)在流畅性方面取得了前所未有的进展,但仍然容易产生“幻觉”——生成不准确或无根据的内容。这种限制在高风险领域尤为关键,因为可靠性至关重要。我们提出了一种领域知识增强的分层检索和验证架构,旨在通过将LLM从随机模式匹配器转变为经过验证的真理寻求者,系统地拦截事实上的不准确性。该框架利用LangGraph实现的四阶段自调节管道:(I)具有提前退出逻辑的内在验证以优化计算,(II)利用领域检测器来定位特定主题档案的自适应搜索路由,(III)纠正性文档评分(CRAG)以过滤不相关的上下文,以及(IV)外在再生,然后进行原子声明级别的验证。该系统在来自五个不同基准的650个查询上进行了评估:TimeQA v2、FreshQA v2、HaluEval General、MMLU Global Facts和TruthfulQA。经验结果表明,该管道在所有环境中始终优于零样本基线。在TimeQA v2中,胜率达到83.7%,在MMLU Global Facts中达到78.0%,证实了在需要精细的时间和数值精度的领域中的高效率。在事实回答行中,Groundedness分数保持在78.8%到86.4%之间。虽然该架构为错误信息提供了强大的故障保护,但识别出了一种持续存在的“错误前提过度声明”的失败模式。这些发现提供了多阶段RAG行为的详细经验表征,并表明未来的工作应优先考虑检索前的“可回答性”节点,以进一步弥合对话式AI中的可靠性差距。
🔬 方法详解
问题定义:大语言模型(LLMs)虽然在生成文本方面表现出色,但存在“幻觉”问题,即生成不真实或无根据的内容。尤其是在需要高度可靠性的领域,这种幻觉会带来严重问题。现有的方法难以有效识别和纠正这些错误,导致LLM的应用受到限制。
核心思路:论文的核心思路是通过一个多阶段的检索和验证流程,将LLM从单纯的模式匹配器转变为一个经过验证的“真理寻求者”。通过领域知识的引入和分层检索,缩小搜索范围,提高检索的准确性,并结合多重验证机制,确保生成内容的可靠性。
技术框架:该框架包含四个主要阶段,通过LangGraph实现:(1)内在验证:利用早期退出逻辑优化计算,快速判断是否需要进一步检索。(2)自适应搜索路由:使用领域检测器,根据查询内容选择合适的领域知识库进行检索。(3)纠正性文档评分(CRAG):过滤掉检索到的文档中不相关的上下文信息。(4)外在再生与声明级验证:基于过滤后的上下文生成答案,并对答案中的每个原子声明进行验证。
关键创新:该方法的主要创新在于其分层检索和验证的架构。通过领域检测器进行自适应搜索路由,能够更精准地定位相关知识,减少无关信息的干扰。此外,纠正性文档评分(CRAG)能够进一步过滤不相关的上下文,提高生成答案的准确性。原子声明级别的验证则能够更细粒度地检测和纠正错误。
关键设计:领域检测器的具体实现方式未知,但其作用是根据查询内容选择合适的领域知识库。纠正性文档评分(CRAG)的具体算法也未知,但其目标是过滤掉检索到的文档中不相关的上下文信息。原子声明级别的验证方法也未知,但需要能够对答案中的每个原子声明进行真伪判断。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在TimeQA v2和MMLU Global Facts数据集上分别取得了83.7%和78.0%的胜率,显著优于零样本基线。在事实回答行中,Groundedness分数保持在78.8%到86.4%之间,表明该框架能够有效提高生成内容的可靠性。虽然存在“错误前提过度声明”的失败模式,但整体性能表现出色。
🎯 应用场景
该研究成果可应用于需要高度可靠性的领域,例如医疗诊断、法律咨询、金融分析等。通过降低大语言模型的幻觉,可以提高其在这些领域的应用价值,并减少因错误信息带来的风险。未来,该技术有望应用于智能客服、知识库问答等场景,提供更准确、可靠的信息服务。
📄 摘要(原文)
Large Language Models (LLMs) have achieved unprecedented fluency but remain susceptible to "hallucinations" - the generation of factually incorrect or ungrounded content. This limitation is particularly critical in high-stakes domains where reliability is paramount. We propose a domain-grounded tiered retrieval and verification architecture designed to systematically intercept factual inaccuracies by shifting LLMs from stochastic pattern-matchers to verified truth-seekers. The proposed framework utilizes a four-phase, self-regulating pipeline implemented via LangGraph: (I) Intrinsic Verification with Early-Exit logic to optimize compute, (II) Adaptive Search Routing utilizing a Domain Detector to target subject-specific archives, (III) Corrective Document Grading (CRAG) to filter irrelevant context, and (IV) Extrinsic Regeneration followed by atomic claim-level verification. The system was evaluated across 650 queries from five diverse benchmarks: TimeQA v2, FreshQA v2, HaluEval General, MMLU Global Facts, and TruthfulQA. Empirical results demonstrate that the pipeline consistently outperforms zero-shot baselines across all environments. Win rates peaked at 83.7% in TimeQA v2 and 78.0% in MMLU Global Facts, confirming high efficacy in domains requiring granular temporal and numerical precision. Groundedness scores remained robustly stable between 78.8% and 86.4% across factual-answer rows. While the architecture provides a robust fail-safe for misinformation, a persistent failure mode of "False-Premise Overclaiming" was identified. These findings provide a detailed empirical characterization of multi-stage RAG behavior and suggest that future work should prioritize pre-retrieval "answerability" nodes to further bridge the reliability gap in conversational AI.