Efficient Hallucination Detection: Adaptive Bayesian Estimation of Semantic Entropy with Guided Semantic Exploration

📄 arXiv: 2603.22812v1 📥 PDF

作者: Qiyao Sun, Xingming Li, Xixiang He, Ao Cheng, Xuanyu Ji, Hailun Lu, Runke Huang, Qingyong Hu

分类: cs.CL

发布日期: 2026-03-24

备注: Accepted to a AAAI 2026 (Oral Presentation, <5% acceptance rate), Project page: https://qingyonghu.github.io/Efficient-Hallucination-Detection/


💡 一句话要点

提出自适应贝叶斯估计框架,高效检测大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉检测 自适应采样 贝叶斯估计 语义熵

📋 核心要点

  1. 现有幻觉检测方法依赖固定采样预算,无法适应不同查询的复杂性,导致计算效率低下。
  2. 提出自适应贝叶斯估计框架,通过分层贝叶斯模型和方差阈值动态调整采样迭代次数。
  3. 实验表明,该方法在低预算下显著减少采样需求,并在相同预算下提升幻觉检测性能。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言处理任务中取得了显著成功,但仍然容易产生事实不正确的输出,即幻觉。最近的方法通过重复从LLM采样并量化生成响应之间的语义不一致性,在幻觉检测方面显示出希望,但它们依赖于固定的采样预算,无法适应查询的复杂性,导致计算效率低下。我们提出了一个自适应贝叶斯估计框架,用于语义熵的计算,并结合引导式语义探索,该框架根据观察到的不确定性动态调整采样需求。我们的方法采用分层贝叶斯框架来建模语义分布,通过基于方差的阈值动态控制采样迭代,一旦达到足够的确定性就终止生成。我们还开发了一种基于扰动的重要性抽样策略,以系统地探索语义空间。在四个QA数据集上的大量实验表明,我们的方法以显著的效率提升实现了卓越的幻觉检测性能。在低预算场景下,我们的方法需要减少约50%的样本才能达到与现有方法相当的检测性能,同时在相同的采样预算下,平均AUROC提高了12.6%。

🔬 方法详解

问题定义:论文旨在解决大语言模型中幻觉检测的效率问题。现有方法通常采用固定数量的采样,然后通过分析多次采样结果的语义一致性来判断是否存在幻觉。这种固定采样策略无法根据问题的复杂程度进行调整,对于简单问题造成了计算资源的浪费,而对于复杂问题可能采样不足,导致检测效果不佳。

核心思路:论文的核心思路是根据模型生成结果的不确定性动态调整采样次数。具体来说,通过建立一个贝叶斯模型来估计语义分布,并使用方差作为不确定性的度量。当方差低于设定的阈值时,认为模型已经足够确定,停止采样。此外,论文还引入了基于扰动的重要性采样策略,以更有效地探索语义空间。

技术框架:该方法主要包含以下几个模块:1) 语义分布建模:使用分层贝叶斯框架对LLM生成结果的语义分布进行建模。2) 自适应采样:根据贝叶斯模型估计的方差动态调整采样次数,当方差低于阈值时停止采样。3) 引导式语义探索:采用基于扰动的重要性采样策略,系统地探索语义空间,提高采样效率。

关键创新:该方法最重要的创新点在于提出了自适应采样策略,能够根据模型的不确定性动态调整采样次数,从而在保证检测性能的同时显著提高计算效率。与现有方法相比,该方法不再依赖固定的采样预算,而是根据问题的复杂程度自适应地进行采样。

关键设计:在语义分布建模方面,论文采用了分层贝叶斯模型,能够更好地捕捉LLM生成结果的语义特征。在自适应采样方面,论文使用方差作为不确定性的度量,并设置了基于方差的阈值来控制采样迭代。在引导式语义探索方面,论文设计了一种基于扰动的重要性采样策略,通过对LLM的输入进行微小的扰动,来探索不同的语义空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在四个QA数据集上取得了显著的性能提升。在低预算场景下,该方法需要减少约50%的样本才能达到与现有方法相当的检测性能。在相同的采样预算下,该方法的平均AUROC提高了12.6%。这些结果表明,该方法在提高幻觉检测效率的同时,也能够保证甚至提升检测性能。

🎯 应用场景

该研究成果可应用于各种需要检测大语言模型幻觉的场景,例如智能客服、自动问答系统、内容生成平台等。通过提高幻觉检测的效率,可以降低计算成本,并提升系统的可靠性和用户体验。未来,该方法可以进一步扩展到其他类型的生成模型和任务中。

📄 摘要(原文)

Large language models (LLMs) have achieved remarkable success in various natural language processing tasks, yet they remain prone to generating factually incorrect outputs known as hallucinations. While recent approaches have shown promise for hallucination detection by repeatedly sampling from LLMs and quantifying the semantic inconsistency among the generated responses, they rely on fixed sampling budgets that fail to adapt to query complexity, resulting in computational inefficiency. We propose an Adaptive Bayesian Estimation framework for Semantic Entropy with Guided Semantic Exploration, which dynamically adjusts sampling requirements based on observed uncertainty. Our approach employs a hierarchical Bayesian framework to model the semantic distribution, enabling dynamic control of sampling iterations through variance-based thresholds that terminate generation once sufficient certainty is achieved. We also develop a perturbation-based importance sampling strategy to systematically explore the semantic space. Extensive experiments on four QA datasets demonstrate that our method achieves superior hallucination detection performance with significant efficiency gains. In low-budget scenarios, our approach requires about 50% fewer samples to achieve comparable detection performance to existing methods, while delivers an average AUROC improvement of 12.6% under the same sampling budget.