Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval

作者: Md. Asraful Haque, Aasar Mehdi, Maaz Mahboob, Tamkeen Fatima

分类: cs.CL, cs.AI

发布日期: 2026-03-18

备注: 14 Pages, 5 Figures, 4 Tables

💡 一句话要点

提出领域知识增强的分层检索框架，缓解大语言模型幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉缓解 领域知识 分层检索 知识图谱

📋 核心要点

现有大语言模型易产生幻觉，在高风险领域可靠性不足，需要更有效的方法来保证生成内容的准确性。
提出领域知识增强的分层检索和验证架构，通过多阶段流程将LLM转变为经过验证的真理寻求者。
实验结果表明，该框架在多个基准测试中优于零样本基线，尤其在时间和数值精度要求高的领域。

📝 摘要（中文）

大型语言模型（LLMs）在流畅性方面取得了前所未有的进展，但仍然容易产生“幻觉”——生成不准确或无根据的内容。这种限制在高风险领域尤为关键，因为可靠性至关重要。我们提出了一种领域知识增强的分层检索和验证架构，旨在通过将LLM从随机模式匹配器转变为经过验证的真理寻求者，系统地拦截事实上的不准确性。该框架利用LangGraph实现的四阶段自调节管道：（I）具有提前退出逻辑的内在验证以优化计算，（II）利用领域检测器来定位特定主题档案的自适应搜索路由，（III）纠正性文档评分（CRAG）以过滤不相关的上下文，以及（IV）外在再生，然后进行原子声明级别的验证。该系统在来自五个不同基准的650个查询上进行了评估：TimeQA v2、FreshQA v2、HaluEval General、MMLU Global Facts和TruthfulQA。经验结果表明，该管道在所有环境中始终优于零样本基线。在TimeQA v2中，胜率达到83.7%，在MMLU Global Facts中达到78.0%，证实了在需要精细的时间和数值精度的领域中的高效率。在事实回答行中，Groundedness分数保持在78.8%到86.4%之间。虽然该架构为错误信息提供了强大的故障保护，但识别出了一种持续存在的“错误前提过度声明”的失败模式。这些发现提供了多阶段RAG行为的详细经验表征，并表明未来的工作应优先考虑检索前的“可回答性”节点，以进一步弥合对话式AI中的可靠性差距。

🔬 方法详解

问题定义：大语言模型（LLMs）虽然在生成文本方面表现出色，但存在“幻觉”问题，即生成不真实或无根据的内容。尤其是在需要高度可靠性的领域，这种幻觉会带来严重问题。现有的方法难以有效识别和纠正这些错误，导致LLM的应用受到限制。

核心思路：论文的核心思路是通过一个多阶段的检索和验证流程，将LLM从单纯的模式匹配器转变为一个经过验证的“真理寻求者”。通过领域知识的引入和分层检索，缩小搜索范围，提高检索的准确性，并结合多重验证机制，确保生成内容的可靠性。

技术框架：该框架包含四个主要阶段，通过LangGraph实现：（1）内在验证：利用早期退出逻辑优化计算，快速判断是否需要进一步检索。（2）自适应搜索路由：使用领域检测器，根据查询内容选择合适的领域知识库进行检索。（3）纠正性文档评分（CRAG）：过滤掉检索到的文档中不相关的上下文信息。（4）外在再生与声明级验证：基于过滤后的上下文生成答案，并对答案中的每个原子声明进行验证。

关键创新：该方法的主要创新在于其分层检索和验证的架构。通过领域检测器进行自适应搜索路由，能够更精准地定位相关知识，减少无关信息的干扰。此外，纠正性文档评分（CRAG）能够进一步过滤不相关的上下文，提高生成答案的准确性。原子声明级别的验证则能够更细粒度地检测和纠正错误。

关键设计：领域检测器的具体实现方式未知，但其作用是根据查询内容选择合适的领域知识库。纠正性文档评分（CRAG）的具体算法也未知，但其目标是过滤掉检索到的文档中不相关的上下文信息。原子声明级别的验证方法也未知，但需要能够对答案中的每个原子声明进行真伪判断。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架在TimeQA v2和MMLU Global Facts数据集上分别取得了83.7%和78.0%的胜率，显著优于零样本基线。在事实回答行中，Groundedness分数保持在78.8%到86.4%之间，表明该框架能够有效提高生成内容的可靠性。虽然存在“错误前提过度声明”的失败模式，但整体性能表现出色。

🎯 应用场景

该研究成果可应用于需要高度可靠性的领域，例如医疗诊断、法律咨询、金融分析等。通过降低大语言模型的幻觉，可以提高其在这些领域的应用价值，并减少因错误信息带来的风险。未来，该技术有望应用于智能客服、知识库问答等场景，提供更准确、可靠的信息服务。

📄 摘要（原文）

Large Language Models (LLMs) have achieved unprecedented fluency but remain susceptible to "hallucinations" - the generation of factually incorrect or ungrounded content. This limitation is particularly critical in high-stakes domains where reliability is paramount. We propose a domain-grounded tiered retrieval and verification architecture designed to systematically intercept factual inaccuracies by shifting LLMs from stochastic pattern-matchers to verified truth-seekers. The proposed framework utilizes a four-phase, self-regulating pipeline implemented via LangGraph: (I) Intrinsic Verification with Early-Exit logic to optimize compute, (II) Adaptive Search Routing utilizing a Domain Detector to target subject-specific archives, (III) Corrective Document Grading (CRAG) to filter irrelevant context, and (IV) Extrinsic Regeneration followed by atomic claim-level verification. The system was evaluated across 650 queries from five diverse benchmarks: TimeQA v2, FreshQA v2, HaluEval General, MMLU Global Facts, and TruthfulQA. Empirical results demonstrate that the pipeline consistently outperforms zero-shot baselines across all environments. Win rates peaked at 83.7% in TimeQA v2 and 78.0% in MMLU Global Facts, confirming high efficacy in domains requiring granular temporal and numerical precision. Groundedness scores remained robustly stable between 78.8% and 86.4% across factual-answer rows. While the architecture provides a robust fail-safe for misinformation, a persistent failure mode of "False-Premise Overclaiming" was identified. These findings provide a detailed empirical characterization of multi-stage RAG behavior and suggest that future work should prioritize pre-retrieval "answerability" nodes to further bridge the reliability gap in conversational AI.

Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理