Can LLMs Detect Their Own Hallucinations?

作者: Sora Kadotani, Kosuke Nishida, Kyosuke Nishida

分类: cs.CL

发布日期: 2025-11-14

备注: 8 pages

💡 一句话要点

提出基于CoT的框架，评估LLM自检幻觉能力，提升幻觉检测准确率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 思维链 自监督学习 知识推理

📋 核心要点

LLM虽然生成能力强大，但存在生成与事实不符内容的幻觉问题，影响其可靠性。
论文提出利用LLM自身知识，结合CoT推理，判断生成内容是否为幻觉，无需额外外部知识。
实验表明，GPT-3.5 Turbo结合CoT方法，能够有效检测自身幻觉，准确率达到58.2%。

📝 摘要（中文）

大型语言模型（LLM）能够生成流畅的回复，但有时会产生事实性幻觉。本文研究了LLM是否能够检测到自身的幻觉。我们将幻觉检测定义为一个句子分类任务。我们提出了一个框架，用于评估LLM的幻觉检测能力，并提出了一种使用思维链（Chain-of-Thought, CoT）的分类方法，以从其参数中提取知识。实验结果表明，使用CoT的GPT-3.5 Turbo能够检测到自身58.2%的幻觉。我们得出结论，如果LLM的参数中包含足够的知识，那么使用CoT的LLM可以检测到幻觉。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）生成内容时出现的幻觉问题，即生成与事实不符的信息。现有方法通常依赖外部知识库或人工标注来检测幻觉，成本高昂且效率低下。论文关注LLM自身是否具备检测自身幻觉的能力，从而降低对外部资源的依赖。

核心思路：论文的核心思路是利用LLM自身蕴含的知识，结合思维链（Chain-of-Thought, CoT）推理，让LLM逐步分析生成内容的合理性和真实性，从而判断其是否为幻觉。CoT能够引导LLM进行更深入的思考，提高其判断准确性。

技术框架：论文提出的框架主要包含以下几个步骤：1) LLM生成一段文本；2) 将该文本作为输入，结合CoT提示词，引导LLM进行推理，判断该文本是否为幻觉；3) LLM输出判断结果，即该文本是否为幻觉。整个过程无需外部知识库的参与，完全依赖LLM自身的知识和推理能力。

关键创新：论文的关键创新在于将幻觉检测问题转化为一个自监督的分类任务，并利用CoT技术来增强LLM的推理能力。与传统的依赖外部知识的方法不同，该方法充分利用了LLM自身的知识，降低了对外部资源的依赖。此外，该方法还提供了一种评估LLM幻觉检测能力的框架。

关键设计：论文的关键设计包括CoT提示词的设计，以及对LLM输出结果的评估方法。CoT提示词需要能够有效地引导LLM进行推理，判断生成内容的真实性。评估方法需要能够准确地衡量LLM的幻觉检测能力。具体来说，论文使用了准确率、召回率等指标来评估LLM的性能。没有提及具体的参数设置、损失函数、网络结构等技术细节，可能因为该方法主要依赖于预训练LLM的能力，而没有引入新的模型结构或训练方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用CoT的GPT-3.5 Turbo能够检测到自身58.2%的幻觉。这一结果表明，LLM在一定程度上具备检测自身幻觉的能力，并且CoT技术可以有效地提高其检测准确率。虽然58.2%的准确率仍有提升空间，但该研究为LLM的幻觉检测提供了一个新的思路和方法。

🎯 应用场景

该研究成果可应用于各种需要LLM生成内容的场景，例如智能客服、内容创作、信息检索等。通过提高LLM的幻觉检测能力，可以显著提升生成内容的质量和可靠性，减少错误信息的传播，增强用户信任度。未来，该技术有望进一步发展，实现更准确、更高效的幻觉检测，推动LLM在更多领域的应用。

📄 摘要（原文）

Large language models (LLMs) can generate fluent responses, but sometimes hallucinate facts. In this paper, we investigate whether LLMs can detect their own hallucinations. We formulate hallucination detection as a classification task of a sentence. We propose a framework for estimating LLMs' capability of hallucination detection and a classification method using Chain-of-Thought (CoT) to extract knowledge from their parameters. The experimental results indicated that GPT-$3.5$ Turbo with CoT detected $58.2\%$ of its own hallucinations. We concluded that LLMs with CoT can detect hallucinations if sufficient knowledge is contained in their parameters.

Can LLMs Detect Their Own Hallucinations?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理