CausalGaze: Unveiling Hallucinations via Counterfactual Graph Intervention in Large Language Models

📄 arXiv: 2604.11087v1 📥 PDF

作者: Linggang Kong, Lei Wu, Yunlong Zhang, Xiaofeng Zhong, Zhen Wang, Yongjie Wang, Yao Pan

分类: cs.LG

发布日期: 2026-04-13

备注: Accepted as ACL2026 Findings


💡 一句话要点

CausalGaze:通过反事实图干预揭示大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉检测 因果推理 反事实干预 结构因果模型

📋 核心要点

  1. 现有幻觉检测方法依赖静态内部状态信号,易受噪声和虚假相关性影响,忽略了深层因果机制。
  2. CausalGaze通过结构因果模型和反事实干预,解耦因果推理与噪声,提升模型可解释性。
  3. 实验表明,CausalGaze在多个数据集和LLM上有效,TruthfulQA数据集上AUROC提升超过5.2%。

📝 摘要(中文)

尽管大型语言模型(LLMs)取得了突破性进展,但幻觉仍然是其在高风险领域部署的关键瓶颈。现有的基于分类的方法主要依赖于内部状态的静态和被动信号,这些信号通常捕获噪声和虚假相关性,而忽略了潜在的因果机制。为了解决这个局限性,我们通过引入CausalGaze,一种基于结构因果模型(SCMs)的新型幻觉检测框架,将范式从被动观察转变为主动干预。CausalGaze将LLM的内部状态建模为动态因果图,并采用反事实干预来解耦因果推理路径与偶然噪声,从而增强模型的可解释性。在四个数据集和三个广泛使用的LLM上的大量实验证明了CausalGaze的有效性,尤其是在TruthfulQA数据集上,与最先进的基线相比,AUROC提高了5.2%以上。

🔬 方法详解

问题定义:大型语言模型(LLMs)的幻觉问题严重阻碍了其在高风险领域的应用。现有的幻觉检测方法主要依赖于对LLM内部状态的被动观察和分类,这些方法容易受到噪声和虚假相关性的影响,无法准确捕捉导致幻觉的根本原因。因此,如何从因果关系的角度理解和检测LLM的幻觉成为一个重要的研究问题。

核心思路:CausalGaze的核心思路是将LLM的内部状态建模为一个动态的因果图,并利用结构因果模型(SCMs)进行分析。通过反事实干预,CausalGaze能够主动改变LLM的内部状态,并观察这些改变对输出结果的影响,从而区分因果推理路径和偶然噪声。这种主动干预的方法能够更准确地识别导致幻觉的因素。

技术框架:CausalGaze框架主要包含以下几个阶段:1) 因果图构建:将LLM的内部状态表示为节点,节点之间的关系表示为边,构建动态因果图。2) 反事实干预:通过对因果图中的节点进行干预,模拟不同的推理路径。3) 结果评估:观察干预后LLM的输出结果,并评估干预对幻觉的影响。4) 幻觉检测:基于干预结果,判断LLM是否存在幻觉。

关键创新:CausalGaze的关键创新在于其将因果推理引入到LLM的幻觉检测中。与传统的被动观察方法不同,CausalGaze通过主动干预LLM的内部状态,能够更准确地识别导致幻觉的因果因素。此外,CausalGaze利用结构因果模型对LLM的内部状态进行建模,提高了模型的可解释性。

关键设计:CausalGaze的关键设计包括:1) 因果图的构建方法:如何选择合适的节点和边来表示LLM的内部状态。2) 反事实干预策略:如何选择合适的节点进行干预,以及如何模拟干预的效果。3) 结果评估指标:如何量化干预对幻觉的影响。论文中可能使用了特定的参数设置、损失函数或网络结构来优化这些设计,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CausalGaze在四个数据集和三个广泛使用的LLM上进行了广泛的实验,结果表明其有效性。特别是在TruthfulQA数据集上,CausalGaze与最先进的基线相比,AUROC提高了5.2%以上。这些结果表明,CausalGaze能够更准确地检测LLM中的幻觉,并提高LLM的可靠性。

🎯 应用场景

CausalGaze的研究成果可应用于各种需要高可靠性和可信度的LLM应用场景,例如医疗诊断、金融分析、法律咨询等。通过提高LLM的可靠性,CausalGaze有助于减少错误信息的传播,提升决策质量,并增强用户对LLM的信任度。未来,该技术有望进一步发展,实现对LLM幻觉的自动修复和预防。

📄 摘要(原文)

Despite the groundbreaking advancements made by large language models (LLMs), hallucination remains a critical bottleneck for their deployment in high-stakes domains. Existing classification-based methods mainly rely on static and passive signals from internal states, which often captures the noise and spurious correlations, while overlooking the underlying causal mechanisms. To address this limitation, we shift the paradigm from passive observation to active intervention by introducing CausalGaze, a novel hallucination detection framework based on structural causal models (SCMs). CausalGaze models LLMs' internal states as dynamic causal graphs and employs counterfactual interventions to disentangle causal reasoning paths from incidental noise, thereby enhancing model interpretability. Extensive experiments across four datasets and three widely used LLMs demonstrate the effectiveness of CausalGaze, especially achieving over 5.2\% improvement in AUROC on the TruthfulQA dataset compared to state-of-the-art baselines.