HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

作者: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou

分类: cs.LG, cs.AI

发布日期: 2026-01-26

备注: Have been accepted by ICLR'26

💡 一句话要点

HalluGuard：通过NTK几何学统一检测LLM中的数据驱动和推理驱动幻觉

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 神经切核 数据驱动幻觉 推理驱动幻觉 风险界限 LLM可靠性

📋 核心要点

现有LLM幻觉检测方法通常只关注数据或推理单一来源，且依赖任务特定规则，泛化性不足。
提出HalluGuard，基于神经切核(NTK)几何，统一建模并检测数据驱动和推理驱动两种幻觉。
在10个基准测试中，HalluGuard超越了11个基线模型，并在9个LLM骨干网络上取得了SOTA性能。

📝 摘要（中文）

大型语言模型(LLM)在医疗、法律和科学发现等高风险领域的可靠性常常因幻觉而受损。这些失败通常源于两个方面：数据驱动的幻觉和推理驱动的幻觉。然而，现有的检测方法通常只针对其中一种来源，并且依赖于特定任务的启发式方法，限制了它们在复杂场景中的泛化能力。为了克服这些限制，我们引入了幻觉风险界限，这是一个统一的理论框架，它将幻觉风险正式分解为数据驱动和推理驱动的组成部分，分别与训练时的不匹配和推理时的不稳定性相关联。这为分析幻觉如何产生和演变提供了原则性基础。在此基础上，我们引入了HalluGuard，一种基于NTK的分数，它利用NTK的诱导几何和捕获的表示来共同识别数据驱动和推理驱动的幻觉。我们在10个不同的基准、11个有竞争力的基线和9个流行的LLM骨干上评估了HalluGuard，在检测各种形式的LLM幻觉方面始终实现了最先进的性能。

🔬 方法详解

问题定义：现有LLM幻觉检测方法存在局限性，主要体现在两个方面：一是通常只针对数据驱动或推理驱动的幻觉中的一种，无法全面覆盖；二是依赖于特定任务的启发式规则，泛化能力较差，难以应对复杂场景。因此，需要一种更通用、更有效的幻觉检测方法。

核心思路：HalluGuard的核心思路是利用神经切核(NTK)的几何特性来同时识别数据驱动和推理驱动的幻觉。NTK能够捕捉模型在训练过程中学习到的数据表示和推理模式，通过分析NTK的几何结构，可以判断模型在推理时是否偏离了训练数据的分布，从而检测出幻觉。

技术框架：HalluGuard的技术框架主要包括以下几个阶段：1) 利用LLM生成文本；2) 计算该文本对应的NTK矩阵；3) 基于NTK矩阵计算HalluGuard分数，该分数反映了文本中出现幻觉的风险；4) 根据HalluGuard分数判断文本是否存在幻觉。

关键创新：HalluGuard的关键创新在于提出了一个统一的理论框架，将幻觉风险分解为数据驱动和推理驱动两个组成部分，并利用NTK的几何特性来同时检测这两种类型的幻觉。与现有方法相比，HalluGuard不需要依赖于特定任务的启发式规则，具有更好的泛化能力。

关键设计：HalluGuard的关键设计包括：1) Hallucination Risk Bound：一个理论框架，用于分解幻觉风险；2) NTK-based score：基于NTK矩阵计算的幻觉风险评分，用于衡量文本中出现幻觉的可能性。具体来说，HalluGuard分数基于NTK矩阵的特征值和特征向量计算，通过分析这些特征值和特征向量的分布，可以判断模型在推理时是否偏离了训练数据的分布。

🖼️ 关键图片

📊 实验亮点

HalluGuard在10个不同的基准测试中，超越了11个有竞争力的基线模型，并在9个流行的LLM骨干网络上取得了SOTA性能。实验结果表明，HalluGuard能够有效检测各种类型的LLM幻觉，并且具有良好的泛化能力。具体性能数据未知，但论文强调了其一致性地超越了现有方法。

🎯 应用场景

HalluGuard可应用于各种需要LLM提供可靠信息的场景，如医疗诊断、法律咨询、科学研究等。通过检测和减少LLM的幻觉，可以提高其在这些领域的应用价值，并避免因错误信息造成的潜在风险。未来，该技术有望集成到LLM的开发和部署流程中，成为保障LLM可靠性的重要工具。

📄 摘要（原文）

The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.

HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理