Detecting Hallucinations in Large Language Models via Internal Attention Divergence Signals
作者: Gijs van Dijk
分类: cs.CL
发布日期: 2026-05-06
备注: ACL SRW 2026
💡 一句话要点
提出基于内部注意力发散信号的大语言模型幻觉检测方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 幻觉检测 注意力机制 不确定性量化 Kullback-Leibler散度
📋 核心要点
- 现有大语言模型幻觉检测方法通常计算成本高昂,依赖重复采样或外部模型。
- 论文提出利用模型内部注意力机制的发散程度来量化不确定性,无需额外计算。
- 实验表明,该方法在多个数据集上表现出色,且能有效定位关键的事实性token。
📝 摘要(中文)
本文提出了一种轻量级的单次不确定性量化方法,用于检测大型语言模型中的幻觉。该方法利用注意力矩阵来估计不确定性,无需重复采样或外部模型。具体而言,我们测量每个注意力头的分布与均匀参考分布之间的Kullback-Leibler散度,并将这些特征用于逻辑回归探针。在多个数据集、任务类型和模型系列中,注意力发散能够高度预测答案的正确性,并且与现有的不确定性估计方法相比具有竞争力。我们发现这种信号集中在中间层以及诸如命名实体和数字等事实性token上,这表明注意力动态提供了模型不确定性的有效且可解释的白盒信号。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中幻觉检测的问题。现有方法,如基于采样的方法,计算成本高昂,难以应用于实际场景。此外,许多方法依赖于外部模型,增加了复杂性。因此,需要一种轻量级、高效且无需外部模型的幻觉检测方法。
核心思路:论文的核心思路是利用LLM内部的注意力机制来估计模型的不确定性。作者认为,当模型对某个token的预测不确定时,其注意力头的分布会更加分散,与均匀分布的差异更大。通过测量注意力分布的发散程度,可以推断模型对答案的置信度。
技术框架:该方法主要包含以下几个步骤:1) 获取LLM的注意力矩阵;2) 计算每个注意力头的分布与均匀分布之间的Kullback-Leibler (KL) 散度;3) 将KL散度作为特征输入到逻辑回归探针中;4) 训练逻辑回归探针来预测答案的正确性。整个过程是单次通过,无需重复采样。
关键创新:该方法最重要的创新在于利用了LLM内部的注意力机制作为不确定性信号。与现有方法相比,它不需要重复采样或外部模型,因此更加轻量级和高效。此外,该方法还提供了一种可解释的白盒信号,可以帮助理解模型产生幻觉的原因。
关键设计:论文的关键设计包括:1) 使用KL散度来衡量注意力分布的发散程度;2) 选择逻辑回归作为探针,因为它简单且易于训练;3) 实验发现,中间层的注意力头包含更丰富的不确定性信息;4) 关注事实性token(如命名实体和数字)的注意力分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于注意力发散的方法在多个数据集和任务类型上都取得了具有竞争力的性能,能够有效预测答案的正确性。该方法在检测幻觉方面与现有的不确定性估计方法相当,但计算成本更低。此外,研究发现注意力发散信号集中在中间层和事实性token上,为模型不确定性的分析提供了新的视角。
🎯 应用场景
该研究成果可应用于各种需要高可靠性的大语言模型应用场景,例如智能客服、医疗诊断、金融分析等。通过检测和降低模型幻觉,可以提高系统的准确性和可信度,避免产生误导性或错误的信息。此外,该方法还可以用于分析模型产生幻觉的原因,从而改进模型的设计和训练。
📄 摘要(原文)
We propose a lightweight and single-pass uncertainty quantification method for detecting hallucinations in Large Language Models. The method uses attention matrices to estimate uncertainty without requiring repeated sampling or external models. Specifically, we measure the Kullback-Leibler divergence between each attention head's distribution and a uniform reference distribution, and use these features in a logistic regression probe. Across multiple datasets, task types, and model families, attention divergence is highly predictive of answer correctness and performs competitively with existing uncertainty estimation methods. We find that this signal is concentrated in middle layers and on factual tokens such as named entities and numbers, suggesting that attention dynamics provides an efficient and interpretable white-box signal of model uncertainty.