Detecting Token-Level Hallucinations Using Variance Signals: A Reference-Free Approach

📄 arXiv: 2507.04137v3 📥 PDF

作者: Keshav Kumar

分类: cs.CL, cs.LG

发布日期: 2025-07-05 (更新: 2025-10-16)


💡 一句话要点

提出一种基于方差信号的无参考Token级幻觉检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 无参考方法 Token级别分析 方差信号

📋 核心要点

  1. 现有幻觉检测方法依赖于参考答案或句子级验证,成本高昂且不够精细。
  2. 该方法利用多次生成中token概率的方差来检测幻觉,无需参考答案,模型无关。
  3. 实验表明,token级方差能有效识别模型输出的不稳定性,与幻觉模式高度相关。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务中展示了令人印象深刻的生成能力,但仍然容易产生幻觉,即自信地生成但不符合事实的输出。本文介绍了一种无参考的、token级别的幻觉检测框架,该框架利用多个随机生成中token对数概率的方差。与需要ground-truth参考或句子级别验证的现有方法不同,我们的方法是模型无关的、可解释的,并且适用于实时或事后分析。我们在SQuAD v2数据集中的不可回答问题提示上评估了我们的方法,并在三种不同规模的自回归模型(GPT-Neo 125M、Falcon 1B和Mistral 7B)上进行了基准测试。通过定量指标和可视化诊断,我们表明token级别的方差可靠地突出了模型输出的不稳定性,并与幻觉模式相关。我们的框架是轻量级的、可复现的,并且适用于多个领域,为分析LLM中的生成可靠性提供了一个有价值的诊断工具。

🔬 方法详解

问题定义:大型语言模型容易产生幻觉,即生成看似合理但与事实不符的内容。现有的幻觉检测方法通常需要依赖外部知识库或参考答案进行比对,这限制了其应用场景和效率。此外,句子级别的验证粒度较粗,难以精确定位幻觉发生的具体位置。

核心思路:该论文的核心思路是利用模型在多次生成过程中,对于同一个token预测概率的差异性来判断该token是否属于幻觉。如果一个token的预测概率在多次生成中波动较大,则表明模型对该token的生成缺乏信心,更有可能是一个幻觉。

技术框架:该框架主要包含以下几个步骤:1) 给定一个输入prompt,使用语言模型进行多次生成,每次生成都采用随机采样策略;2) 对于每次生成,记录每个token的对数概率;3) 计算每个token在多次生成中的对数概率的方差;4) 将方差作为该token的幻觉指标,方差越大,则该token越有可能是幻觉。

关键创新:该方法最大的创新在于提出了一个无参考的token级别幻觉检测方法。与现有方法相比,该方法不需要依赖外部知识库或参考答案,可以直接对模型的输出进行分析,并且可以精确定位到幻觉发生的具体token。此外,该方法是模型无关的,可以应用于不同的语言模型。

关键设计:该方法的关键设计在于如何选择合适的方差阈值来区分幻觉和非幻觉token。论文中并没有明确说明如何选择阈值,这可能需要根据具体的应用场景和模型进行调整。此外,生成次数的选择也会影响方差的计算结果,需要进行合理的设置。

📊 实验亮点

实验结果表明,该方法能够有效地检测LLM生成的幻觉。在SQuAD v2数据集上,通过分析token级别的方差,可以准确地识别出模型在回答不可回答问题时产生的幻觉。该方法在GPT-Neo 125M、Falcon 1B和Mistral 7B等不同规模的模型上均表现出良好的性能,证明了其模型无关性。

🎯 应用场景

该研究成果可应用于多种场景,例如:提高聊天机器人的回复质量,避免生成不实信息;辅助内容创作,检测和纠正LLM生成的文本中的错误;评估不同LLM的生成可靠性,为模型选择提供依据。该方法具有轻量级、可复现的特点,易于集成到现有系统中,具有广阔的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated impressive generative capabilities across diverse tasks but remain susceptible to hallucinations, confidently generated yet factually incorrect outputs. We introduce a reference-free, token-level hallucination detection framework that leverages the variance in token log-probabilities across multiple stochastic generations. Unlike prior methods that require ground-truth references or sentence-level verification, our approach is model-agnostic, interpretable, and suited for real-time or post-hoc analysis. We evaluate our method on unanswerable question prompts from the SQuAD v2 dataset and benchmark across three autoregressive models of varying scales: GPT-Neo 125M, Falcon 1B, and Mistral 7B. Through both quantitative metrics and visual diagnostics, we show that token-level variance reliably highlights instability in model outputs and correlates with hallucination patterns. Our framework is lightweight, reproducible, and adaptable to multiple domains, offering a valuable diagnostic tool for analyzing generative reliability in LLMs.