Learning Uncertainty from Sequential Internal Dispersion in Large Language Models

📄 arXiv: 2604.15741v1 📥 PDF

作者: Ponhvoan Srey, Xiaobao Wu, Cong-Duy Nguyen, Anh Tuan Luu

分类: cs.CL, cs.AI

发布日期: 2026-04-17

备注: Accepted at ACL 2026 (Main Conference)

🔗 代码/项目: GITHUB


💡 一句话要点

提出SIVR框架,利用LLM内部方差学习不确定性,提升幻觉检测泛化性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 不确定性估计 内部方差 序列建模

📋 核心要点

  1. 现有LLM幻觉检测方法依赖对隐藏状态演变的严格假设,且易丢失token序列信息。
  2. SIVR框架通过token级、层级隐藏状态方差表示,学习不确定性,无需特定假设。
  3. 实验表明,SIVR在幻觉检测上优于基线,具有更强的泛化性和更低的训练数据依赖。

📝 摘要(中文)

不确定性估计是检测大型语言模型(LLM)中幻觉的一种有前景的方法。最近的方法通常依赖于模型内部状态来估计不确定性。然而,它们受到关于隐藏状态如何在层之间演变的严格假设的限制,并且由于仅关注最后一个或平均token而导致信息丢失。为了解决这些问题,我们提出了一种序列内部方差表示(SIVR),这是一个有监督的幻觉检测框架,它利用来自隐藏状态的token级别、层级别的特征。SIVR采用了一个更基本的假设,即不确定性体现在内部表示在层之间的分散或方差程度中,而不是依赖于特定的假设,这使得该方法与模型和任务无关。此外,它还聚合了每个token方差特征的完整序列,学习指示事实错误的 temporal 模式,从而防止信息丢失。实验结果表明,SIVR始终优于强大的基线。最重要的是,SIVR具有更强的泛化能力,避免依赖大型训练集,突出了实际部署的潜力。我们的代码库可在https://github.com/ponhvoan/internal-variance上找到。

🔬 方法详解

问题定义:现有基于LLM内部状态的幻觉检测方法存在两个主要痛点:一是依赖于对隐藏状态在层间演变的特定假设,这限制了模型的通用性;二是通常只关注最后一个或平均token的隐藏状态,忽略了序列中其他token的信息,导致信息损失。因此,需要一种更通用、更充分利用内部信息的方法来检测LLM的幻觉。

核心思路:论文的核心思路是,LLM在生成错误或幻觉时,其内部表示(即隐藏状态)在不同层之间会表现出更大的分散或方差。这种方差可以被视为不确定性的体现,而无需对隐藏状态的演变方式做出特定假设。通过学习这种方差模式,可以有效地检测LLM的幻觉。

技术框架:SIVR框架主要包含以下几个阶段:1. 特征提取:从LLM的每一层提取每个token的隐藏状态。2. 方差计算:计算每个token在不同层之间的隐藏状态的方差,得到token级别的方差特征。3. 序列聚合:将所有token的方差特征序列进行聚合,以捕捉temporal模式。4. 分类器训练:使用聚合后的特征训练一个分类器,用于区分真实样本和包含幻觉的样本。

关键创新:SIVR的关键创新在于:1. 更通用的不确定性度量:它使用隐藏状态的方差作为不确定性的度量,避免了对隐藏状态演变的特定假设,从而提高了模型的通用性。2. 充分利用序列信息:它聚合了所有token的方差特征,从而充分利用了序列信息,避免了信息损失。

关键设计:SIVR的关键设计包括:1. Token级别方差计算:对每个token计算其隐藏状态在不同层之间的方差,以捕捉细粒度的不确定性信息。2. 序列聚合方法:采用循环神经网络(RNN)或Transformer等序列模型来聚合token级别的方差特征,以捕捉temporal模式。3. 监督学习框架:使用有标签的数据训练分类器,以区分真实样本和包含幻觉的样本。损失函数通常采用交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SIVR在幻觉检测任务上 consistently 优于现有的强基线方法。更重要的是,SIVR展现出更强的泛化能力,并且对训练数据的依赖性较低,这意味着它可以在实际应用中更容易部署,而无需大量标注数据。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可靠性和安全性,例如在对话系统、文本生成、信息检索等领域,减少模型产生错误信息或有害内容的风险。通过更准确地检测幻觉,可以提高用户对LLM输出的信任度,并促进LLM在更多实际场景中的应用。

📄 摘要(原文)

Uncertainty estimation is a promising approach to detect hallucinations in large language models (LLMs). Recent approaches commonly depend on model internal states to estimate uncertainty. However, they suffer from strict assumptions on how hidden states should evolve across layers, and from information loss by solely focusing on last or mean tokens. To address these issues, we present Sequential Internal Variance Representation (SIVR), a supervised hallucination detection framework that leverages token-wise, layer-wise features derived from hidden states. SIVR adopts a more basic assumption that uncertainty manifests in the degree of dispersion or variance of internal representations across layers, rather than relying on specific assumptions, which makes the method model and task agnostic. It additionally aggregates the full sequence of per-token variance features, learning temporal patterns indicative of factual errors and thereby preventing information loss. Experimental results demonstrate SIVR consistently outperforms strong baselines. Most importantly, SIVR enjoys stronger generalisation and avoids relying on large training sets, highlighting the potential for practical deployment. Our code repository is available online at https://github.com/ponhvoan/internal-variance.