Can LLMs Detect Their Own Hallucinations?

📄 arXiv: 2511.11087v1 📥 PDF

作者: Sora Kadotani, Kosuke Nishida, Kyosuke Nishida

分类: cs.CL

发布日期: 2025-11-14

备注: 8 pages


💡 一句话要点

提出基于CoT的框架,评估LLM自检幻觉能力,提升幻觉检测准确率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 思维链 自监督学习 知识推理

📋 核心要点

  1. LLM虽然生成能力强大,但存在生成与事实不符内容的幻觉问题,影响其可靠性。
  2. 论文提出利用LLM自身知识,结合CoT推理,判断生成内容是否为幻觉,无需额外外部知识。
  3. 实验表明,GPT-3.5 Turbo结合CoT方法,能够有效检测自身幻觉,准确率达到58.2%。

📝 摘要(中文)

大型语言模型(LLM)能够生成流畅的回复,但有时会产生事实性幻觉。本文研究了LLM是否能够检测到自身的幻觉。我们将幻觉检测定义为一个句子分类任务。我们提出了一个框架,用于评估LLM的幻觉检测能力,并提出了一种使用思维链(Chain-of-Thought, CoT)的分类方法,以从其参数中提取知识。实验结果表明,使用CoT的GPT-3.5 Turbo能够检测到自身58.2%的幻觉。我们得出结论,如果LLM的参数中包含足够的知识,那么使用CoT的LLM可以检测到幻觉。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)生成内容时出现的幻觉问题,即生成与事实不符的信息。现有方法通常依赖外部知识库或人工标注来检测幻觉,成本高昂且效率低下。论文关注LLM自身是否具备检测自身幻觉的能力,从而降低对外部资源的依赖。

核心思路:论文的核心思路是利用LLM自身蕴含的知识,结合思维链(Chain-of-Thought, CoT)推理,让LLM逐步分析生成内容的合理性和真实性,从而判断其是否为幻觉。CoT能够引导LLM进行更深入的思考,提高其判断准确性。

技术框架:论文提出的框架主要包含以下几个步骤:1) LLM生成一段文本;2) 将该文本作为输入,结合CoT提示词,引导LLM进行推理,判断该文本是否为幻觉;3) LLM输出判断结果,即该文本是否为幻觉。整个过程无需外部知识库的参与,完全依赖LLM自身的知识和推理能力。

关键创新:论文的关键创新在于将幻觉检测问题转化为一个自监督的分类任务,并利用CoT技术来增强LLM的推理能力。与传统的依赖外部知识的方法不同,该方法充分利用了LLM自身的知识,降低了对外部资源的依赖。此外,该方法还提供了一种评估LLM幻觉检测能力的框架。

关键设计:论文的关键设计包括CoT提示词的设计,以及对LLM输出结果的评估方法。CoT提示词需要能够有效地引导LLM进行推理,判断生成内容的真实性。评估方法需要能够准确地衡量LLM的幻觉检测能力。具体来说,论文使用了准确率、召回率等指标来评估LLM的性能。没有提及具体的参数设置、损失函数、网络结构等技术细节,可能因为该方法主要依赖于预训练LLM的能力,而没有引入新的模型结构或训练方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用CoT的GPT-3.5 Turbo能够检测到自身58.2%的幻觉。这一结果表明,LLM在一定程度上具备检测自身幻觉的能力,并且CoT技术可以有效地提高其检测准确率。虽然58.2%的准确率仍有提升空间,但该研究为LLM的幻觉检测提供了一个新的思路和方法。

🎯 应用场景

该研究成果可应用于各种需要LLM生成内容的场景,例如智能客服、内容创作、信息检索等。通过提高LLM的幻觉检测能力,可以显著提升生成内容的质量和可靠性,减少错误信息的传播,增强用户信任度。未来,该技术有望进一步发展,实现更准确、更高效的幻觉检测,推动LLM在更多领域的应用。

📄 摘要(原文)

Large language models (LLMs) can generate fluent responses, but sometimes hallucinate facts. In this paper, we investigate whether LLMs can detect their own hallucinations. We formulate hallucination detection as a classification task of a sentence. We propose a framework for estimating LLMs' capability of hallucination detection and a classification method using Chain-of-Thought (CoT) to extract knowledge from their parameters. The experimental results indicated that GPT-$3.5$ Turbo with CoT detected $58.2\%$ of its own hallucinations. We concluded that LLMs with CoT can detect hallucinations if sufficient knowledge is contained in their parameters.