A Head to Predict and a Head to Question: Pre-trained Uncertainty Quantification Heads for Hallucination Detection in LLM Outputs
作者: Artem Shelmanov, Ekaterina Fadeeva, Akim Tsvigun, Ivan Tsvigun, Zhuohan Xie, Igor Kiselev, Nico Daheim, Caiqi Zhang, Artem Vazhentsev, Mrinmaya Sachan, Preslav Nakov, Timothy Baldwin
分类: cs.CL, cs.AI
发布日期: 2025-05-13
💡 一句话要点
提出预训练不确定性量化头,用于检测LLM输出中的幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 不确定性量化 预训练模型 Transformer 注意力机制 监督学习
📋 核心要点
- LLM容易产生幻觉,生成不真实信息,但用户难以辨别真伪,缺乏有效检测工具。
- 论文提出预训练不确定性量化头,利用Transformer架构和注意力机制,提升LLM不确定性感知能力。
- 实验表明,该方法在幻觉检测任务上表现出色,具有良好的鲁棒性和跨语言泛化能力。
📝 摘要(中文)
大型语言模型(LLM)倾向于产生幻觉,即偶尔生成虚假或捏造的信息。这是一个主要的挑战,因为幻觉通常显得极具说服力,而用户通常缺乏检测它们的工具。不确定性量化(UQ)提供了一个评估模型输出可靠性的框架,有助于识别潜在的幻觉。本文介绍预训练的UQ头:LLM的监督辅助模块,与无监督UQ方法相比,它大大增强了LLM捕获不确定性的能力。它们的强大性能源于其设计中强大的Transformer架构以及来自LLM注意力图的信息丰富特征。实验评估表明,这些头非常稳健,并在领域内和领域外提示的声明级幻觉检测中实现了最先进的性能。此外,这些模块还展示了对未明确训练的语言的强大泛化能力。我们为流行的LLM系列(包括Mistral、Llama和Gemma 2)预训练了一系列UQ头。我们公开发布了代码和预训练的头。
🔬 方法详解
问题定义:大型语言模型(LLM)在生成文本时,存在产生幻觉的问题,即生成不真实或捏造的信息。现有的方法,特别是无监督的不确定性量化方法,在准确捕捉和量化这种不确定性方面存在不足,导致幻觉检测的准确率不高。
核心思路:论文的核心思路是引入预训练的不确定性量化(UQ)头,作为LLM的辅助模块。这些UQ头通过监督学习的方式进行训练,能够更有效地学习和捕捉LLM输出中的不确定性信息,从而提高幻觉检测的准确率。这种方法的核心在于利用Transformer架构的强大表示能力和LLM的注意力机制,提取更具信息量的特征。
技术框架:整体框架包括:1) 使用LLM生成文本;2) 将LLM的输出和注意力权重输入到预训练的UQ头中;3) UQ头预测输出文本的不确定性;4) 基于不确定性预测结果,判断文本是否存在幻觉。UQ头是基于Transformer架构构建的,可以看作是一个分类器或回归器,用于预测文本的置信度或不确定性。
关键创新:最重要的创新点在于提出了预训练的UQ头,并将其作为LLM的辅助模块。与传统的无监督UQ方法相比,预训练的UQ头能够通过监督学习的方式,学习到更有效的特征表示,从而更准确地量化LLM输出中的不确定性。此外,利用LLM的注意力机制提取特征也是一个重要的创新点。
关键设计:UQ头的具体结构基于Transformer架构,输入包括LLM的输出文本和注意力权重。损失函数的设计取决于具体的任务,例如,可以使用交叉熵损失函数进行分类,或者使用均方误差损失函数进行回归。预训练过程使用了大量的标注数据,包括真实文本和包含幻觉的文本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,预训练的UQ头在声明级幻觉检测任务上取得了state-of-the-art的性能,超过了现有的无监督UQ方法。该方法在领域内和领域外提示下均表现出良好的鲁棒性,并且具有较强的跨语言泛化能力。作者公开了代码和预训练的UQ头,方便其他研究者使用和进一步研究。
🎯 应用场景
该研究成果可应用于各种需要LLM生成文本的场景,例如问答系统、内容生成、对话机器人等。通过提高LLM输出的可靠性,可以减少虚假信息的传播,增强用户信任度,并提升LLM在实际应用中的价值。未来,该技术有望进一步扩展到其他类型的生成模型,并与其他幻觉检测方法相结合,构建更完善的幻觉检测系统。
📄 摘要(原文)
Large Language Models (LLMs) have the tendency to hallucinate, i.e., to sporadically generate false or fabricated information. This presents a major challenge, as hallucinations often appear highly convincing and users generally lack the tools to detect them. Uncertainty quantification (UQ) provides a framework for assessing the reliability of model outputs, aiding in the identification of potential hallucinations. In this work, we introduce pre-trained UQ heads: supervised auxiliary modules for LLMs that substantially enhance their ability to capture uncertainty compared to unsupervised UQ methods. Their strong performance stems from the powerful Transformer architecture in their design and informative features derived from LLM attention maps. Experimental evaluation shows that these heads are highly robust and achieve state-of-the-art performance in claim-level hallucination detection across both in-domain and out-of-domain prompts. Moreover, these modules demonstrate strong generalization to languages they were not explicitly trained on. We pre-train a collection of UQ heads for popular LLM series, including Mistral, Llama, and Gemma 2. We publicly release both the code and the pre-trained heads.