Hallucination as an Anomaly: Dynamic Intervention via Probabilistic Circuits

📄 arXiv: 2605.05953v1 📥 PDF

作者: Erik Nielsen, Elia Cunegatti, Marcus Vukojevic, Giovanni Iacca

分类: cs.CL, cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出PCNET,通过概率电路动态干预LLM幻觉问题,提升生成真实性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 概率电路 密度估计 对比学习

📋 核心要点

  1. 现有LLM幻觉纠正方法会 indiscriminately 地修正所有token,可能破坏正确的生成结果。
  2. PCNET 将 LLM 的幻觉现象建模为残差流上的几何异常,利用概率电路进行精确检测。
  3. PC-LDCD 仅在检测到幻觉时进行干预,避免过度修正,实验表明可以显著提高生成结果的真实性。

📝 摘要(中文)

大型语言模型(LLM)最关键的挑战之一是产生幻觉,即生成不准确的事实性回复。现有方法在纠正幻觉方面取得了一定的进展,但仍存在一个主要限制:它们不加区分地对每个token进行修正,从而破坏了原本正确的生成结果。为了克服这个缺点,我们提出了PCNET,这是一个概率电路,被训练成LLM残差流上的可处理密度估计器。该方法将幻觉检测为事实流形上的几何异常,通过精确的负对数似然计算实现,无需像现有技术那样进行采样、外部验证或权重修改。为了证明其有效性,我们利用PCNET作为一个动态门,在每个解码步骤中区分幻觉状态和事实隐藏状态。这引出了我们的第二个主要贡献,PC-LDCD(概率电路潜在密度对比解码),仅当潜在几何结构偏离事实区域时才触发,同时保持正确的生成不受影响。在四个LLM(模型大小从10亿到80亿不等)和四个基准测试(涵盖对话推理、知识密集型QA、阅读理解和真实性)中,PCNET在CoQA、SQuAD v2.0和TriviaQA上实现了接近完美的幻觉检测,AUROC高达99%。此外,与最先进的基线相比,PC-LDCD在TruthfulQA上获得了最高的True+Info、MC2和MC3分数(在四个模型中的三个),同时将平均损坏率降低到53.7%,并实现了79.3%的保留率。我们提出的方法已在GitHub上公开。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中普遍存在的“幻觉”问题,即模型生成与事实不符的内容。现有方法尝试纠正幻觉,但往往会过度修正,破坏模型原本正确的生成部分。因此,如何在纠正幻觉的同时,最大限度地保留模型已有的知识和能力,是一个亟待解决的问题。

核心思路:论文的核心思路是将LLM的幻觉现象视为模型内部状态空间(残差流)的几何异常。假设LLM在生成正确内容时,其内部状态会落在某个“事实流形”上,而生成幻觉时则会偏离该流形。通过训练一个概率电路来学习这个事实流形,就可以检测出偏离流形的异常状态,从而判断是否发生了幻觉。

技术框架:该方法主要包含两个模块:PCNET(Probabilistic Circuit Network)和PC-LDCD(Probabilistic Circuit Latent Density Contrastive Decoding)。PCNET 负责检测幻觉,通过计算残差流的负对数似然(NLL)来判断其是否为异常。PC-LDCD 则根据 PCNET 的检测结果,动态地对 LLM 的生成过程进行干预。具体来说,当检测到幻觉时,PC-LDCD会通过对比学习的方式,将 LLM 的隐藏状态拉回事实流形,从而纠正幻觉。如果未检测到幻觉,则保持 LLM 的正常生成过程。

关键创新:该方法最重要的创新点在于将幻觉检测问题转化为几何异常检测问题,并利用概率电路进行精确的密度估计。与现有方法相比,该方法无需采样、外部验证或权重修改,而是直接在 LLM 的残差流上进行操作,从而提高了效率和准确性。此外,PC-LDCD 的动态干预机制可以避免过度修正,更好地保留 LLM 的原有知识。

关键设计:PCNET 使用概率电路(Probabilistic Circuit)作为密度估计器。概率电路是一种易于处理的概率图模型,可以进行精确的推理和学习。论文使用负对数似然(NLL)作为损失函数来训练 PCNET,使其能够准确地估计残差流的密度。PC-LDCD 使用对比学习的方式来纠正幻觉。具体来说,它会将检测到幻觉的隐藏状态与从事实流形中采样的隐藏状态进行对比,并通过调整 LLM 的参数,使得前者更接近后者。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PCNET在CoQA、SQuAD v2.0和TriviaQA等数据集上实现了接近完美的幻觉检测,AUROC高达99%。在TruthfulQA数据集上,PC-LDCD在四个模型中的三个上获得了最高的True+Info、MC2和MC3分数,同时将平均损坏率降低到53.7%,并实现了79.3%的保留率。这些结果表明,该方法在提高LLM生成结果的真实性和可靠性方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要高可靠性和真实性的自然语言生成场景,例如智能客服、问答系统、内容创作等。通过有效减少LLM的幻觉问题,可以提高用户对生成内容的信任度,并降低因错误信息带来的风险。未来,该方法有望推广到更广泛的语言模型和任务中,进一步提升AI系统的可靠性。

📄 摘要(原文)

One of the most critical challenges in Large Language Models is their tendency to hallucinate, i.e., produce factually incorrect responses. Existing approaches show promising results in terms of hallucination correction, but still suffer from a main limitation: they apply corrections indiscriminately to every token, corrupting also the originally correct generations. To overcome this drawback, we propose PCNET, a Probabilistic Circuit trained as a tractable density estimator over the LLM residual stream. The method detects hallucinations as geometric anomalies on the factual manifold, which is done via exact Negative Log-Likelihood computation, hence without the need for sampling, external verifiers, or weight modifications, as in existing techniques. To demonstrate its effectiveness, we exploit PCNET as a dynamic gate that distinguishes hallucinated from factual hidden states at each decoding step. This triggers our second main contribution, PC-LDCD (Probabilistic Circuit Latent Density Contrastive Decoding), only when the latent geometry deviates from factual regions, while leaving correct generations untouched. Across four LLMs, ranging from 1B to 8B models, and four benchmarks covering conversational reasoning, knowledge-intensive QA, reading comprehension, and truthfulness, PCNET achieves near-perfect hallucination detection across CoQA, SQuAD v2.0, and TriviaQA, with AUROC reaching up to 99%. Moreover, PC-LDCD obtains the highest True+Info, MC2, and MC3 scores on TruthfulQA in three out of four models, in comparison with state-of-the-art baselines, while reducing the mean corruption rate to 53.7% and achieving a preservation rate of 79.3%. Our proposed method is publicly available on GitHub.