Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection

📄 arXiv: 2502.15845v1 📥 PDF

作者: Yihao Xue, Kristjan Greenewald, Youssef Mroueh, Baharan Mirzasoleiman

分类: cs.CL, cs.AI

发布日期: 2025-02-20


💡 一句话要点

提出一种基于不确定性验证的黑盒幻觉检测方法,提升效率并保持高性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 自洽性 跨模型一致性 不确定性验证

📋 核心要点

  1. 现有基于自洽性的黑盒幻觉检测方法性能接近上限,提升空间有限。
  2. 提出一种基于不确定性验证的两阶段检测算法,结合自洽性和跨模型一致性。
  3. 实验表明,该方法在保持高性能的同时,显著降低了计算成本。

📝 摘要(中文)

大型语言模型(LLMs)存在幻觉问题,这阻碍了它们在敏感应用中的可靠性。在黑盒设置中,已经提出了几种基于自洽性的幻觉检测技术。我们对这些技术进行了实证研究,表明它们实现了接近有监督(仍然是黑盒)oracle的性能,表明在这个范式内几乎没有改进的空间。为了解决这个限制,我们探索了目标模型和额外的验证器LLM之间的跨模型一致性检查。通过这个额外的信息,我们观察到与纯粹基于自洽性的方法相比,oracle性能有所提高。然后,我们提出了一种经济高效的两阶段检测算法,该算法仅针对一部分情况调用验证器模型。它基于自洽性分类器的不确定性区间,动态地在自洽性和跨一致性之间切换。我们通过核均值嵌入的视角,对基于一致性的幻觉检测方法进行了几何解释,提供了更深入的理论见解。大量的实验表明,这种方法在保持高检测性能的同时,显著降低了计算成本。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在黑盒场景下的幻觉检测问题。现有的基于自洽性的方法虽然有效,但性能已接近上限,难以进一步提升。这些方法主要依赖模型自身的多次生成结果的一致性来判断是否存在幻觉,缺乏外部信息验证,导致改进空间受限。

核心思路:论文的核心思路是引入一个额外的验证器LLM,通过跨模型一致性检查来弥补自洽性方法的不足。核心在于并非所有情况都调用验证器,而是仅在自洽性方法判断不确定时才使用,从而在性能和计算成本之间取得平衡。这种“Verify when Uncertain”的策略能够更有效地利用验证器LLM的知识,提高幻觉检测的准确性。

技术框架:该方法是一个两阶段的检测算法。第一阶段,使用自洽性方法对LLM的生成结果进行初步判断,得到一个置信度评分。第二阶段,根据第一阶段的置信度评分,判断是否需要调用验证器LLM进行跨模型一致性检查。具体来说,设定一个不确定性区间,如果自洽性评分落入该区间,则调用验证器;否则,直接根据自洽性评分进行判断。

关键创新:该方法最重要的创新点在于动态地在自洽性和跨模型一致性之间切换。与完全依赖自洽性或完全依赖跨模型一致性的方法相比,该方法能够更有效地利用计算资源,在保持高性能的同时,显著降低计算成本。此外,论文还从核均值嵌入的角度对一致性方法进行了几何解释,为理解这些方法提供了新的视角。

关键设计:关键设计包括不确定性区间的确定方法。论文中可能采用了基于经验或数据驱动的方法来确定该区间,以平衡性能和计算成本。此外,验证器LLM的选择也是一个关键因素,需要选择具有较高可靠性和与目标模型差异性的模型。具体的损失函数和网络结构取决于所使用的自洽性方法和验证器LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在保持与纯自洽性方法相近的幻觉检测性能的同时,显著降低了计算成本。具体而言,该方法能够在仅调用少量验证器LLM的情况下,达到接近有监督oracle的性能,证明了其高效性和实用性。具体的性能提升幅度和计算成本降低比例需要在论文中查找。

🎯 应用场景

该研究成果可应用于各种需要LLM提供可靠信息的场景,例如智能客服、医疗诊断、金融分析等。通过降低幻觉发生的概率,可以提高LLM在这些领域的应用价值,并减少因错误信息带来的潜在风险。未来,该方法可以进一步扩展到其他类型的生成模型和任务中。

📄 摘要(原文)

Large Language Models (LLMs) suffer from hallucination problems, which hinder their reliability in sensitive applications. In the black-box setting, several self-consistency-based techniques have been proposed for hallucination detection. We empirically study these techniques and show that they achieve performance close to that of a supervised (still black-box) oracle, suggesting little room for improvement within this paradigm. To address this limitation, we explore cross-model consistency checking between the target model and an additional verifier LLM. With this extra information, we observe improved oracle performance compared to purely self-consistency-based methods. We then propose a budget-friendly, two-stage detection algorithm that calls the verifier model only for a subset of cases. It dynamically switches between self-consistency and cross-consistency based on an uncertainty interval of the self-consistency classifier. We provide a geometric interpretation of consistency-based hallucination detection methods through the lens of kernel mean embeddings, offering deeper theoretical insights. Extensive experiments show that this approach maintains high detection performance while significantly reducing computational cost.