Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models

📄 arXiv: 2408.10692v2 📥 PDF

作者: Artem Vazhentsev, Ekaterina Fadeeva, Rui Xing, Gleb Kuzmin, Ivan Lazichny, Alexander Panchenko, Preslav Nakov, Timothy Baldwin, Maxim Panov, Artem Shelmanov

分类: cs.CL

发布日期: 2024-08-20 (更新: 2025-10-21)


💡 一句话要点

提出基于注意力机制的LLM不确定性量化方法,提升生成结果可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 不确定性量化 大型语言模型 注意力机制 选择性生成 幻觉检测

📋 核心要点

  1. 大型语言模型容易产生幻觉和低质量输出,不确定性量化是解决此问题的重要手段。
  2. 该论文提出利用LLM的注意力机制,学习生成步骤之间的条件依赖关系,从而更准确地量化不确定性。
  3. 实验表明,该方法在选择性生成任务上显著优于现有的无监督和监督方法,提升了生成结果的可靠性。

📝 摘要(中文)

不确定性量化(UQ)已成为检测大型语言模型(LLM)幻觉和低质量输出的一种有前景的方法。然而,由于难以显式建模自回归LLM生成步骤之间的条件依赖关系,获得适当的不确定性分数变得复杂。本文提出从基于注意力的特征中学习这种依赖关系。具体而言,我们训练一个回归模型,该模型利用LLM注意力图、当前生成步骤的概率以及从先前生成的token递归计算的不确定性分数。为了结合递归特征,我们还提出了一种两阶段训练程序。在十个数据集和三个LLM上的实验评估表明,所提出的方法对于选择性生成非常有效,与竞争的无监督和监督方法相比,取得了显著的改进。

🔬 方法详解

问题定义:大型语言模型(LLM)在生成文本时,容易出现“幻觉”现象,即生成不真实或不准确的内容。不确定性量化(UQ)旨在评估模型输出的可信度,从而帮助识别和过滤掉低质量的生成结果。然而,由于LLM的自回归特性,每个token的生成都依赖于之前的token,这种复杂的条件依赖关系使得准确量化不确定性变得非常困难。现有的方法难以有效建模这种依赖关系,导致不确定性估计不准确。

核心思路:该论文的核心思路是利用LLM的注意力机制来学习生成步骤之间的条件依赖关系。注意力机制能够捕捉token之间的关联性,从而反映模型在生成过程中的置信度。通过分析注意力权重,可以推断出模型对当前生成token的不确定性。此外,论文还引入了递归计算的不确定性分数,将之前生成token的不确定性信息传递到当前步骤,进一步提升不确定性估计的准确性。

技术框架:该方法主要包含以下几个模块:1) LLM:使用预训练的LLM生成文本。2) 注意力特征提取器:从LLM的注意力层提取注意力权重,作为不确定性估计的输入特征。3) 概率特征:使用当前生成token的概率分布作为特征。4) 递归不确定性计算:递归地计算每个token的不确定性分数,并将之前token的不确定性信息传递到当前步骤。5) 回归模型:训练一个回归模型,将注意力特征、概率特征和递归不确定性分数作为输入,预测当前token的不确定性。整个流程采用两阶段训练:首先训练回归模型,然后利用回归模型进行选择性生成。

关键创新:该论文的关键创新在于:1) 利用LLM的注意力机制来学习生成步骤之间的条件依赖关系,从而更准确地量化不确定性。2) 引入递归计算的不确定性分数,将之前生成token的不确定性信息传递到当前步骤,提升不确定性估计的准确性。3) 提出了一种两阶段训练程序,有效地训练了回归模型。与现有方法相比,该方法能够更有效地捕捉LLM生成过程中的不确定性,从而提升选择性生成的性能。

关键设计:该方法采用了两阶段训练策略。第一阶段,使用LLM生成文本,并提取注意力特征、概率特征和递归不确定性分数,然后训练一个回归模型来预测不确定性。回归模型可以使用各种模型,例如线性回归、支持向量机或神经网络。第二阶段,使用训练好的回归模型来预测LLM生成文本的不确定性,并根据不确定性分数进行选择性生成。损失函数可以选择均方误差或交叉熵损失。递归不确定性计算可以使用各种方法,例如加权平均或循环神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在十个数据集和三个LLM上都取得了显著的改进。与现有的无监督和监督方法相比,该方法在选择性生成任务上取得了大幅提升,例如在某些数据集上,准确率提升了10%以上。这些结果表明,该方法能够更有效地捕捉LLM生成过程中的不确定性,从而提升生成结果的质量。

🎯 应用场景

该研究成果可应用于各种需要高质量文本生成的场景,例如自动摘要、机器翻译、对话系统等。通过不确定性量化,可以过滤掉LLM生成的低质量或不真实的内容,提高生成结果的可靠性和实用性。此外,该方法还可以用于检测和缓解LLM的偏见和有害内容生成,促进负责任的AI发展。

📄 摘要(原文)

Uncertainty quantification (UQ) has emerged as a promising approach for detecting hallucinations and low-quality output of Large Language Models (LLMs). However, obtaining proper uncertainty scores is complicated by the conditional dependency between the generation steps of an autoregressive LLM because it is hard to model it explicitly. Here, we propose to learn this dependency from attention-based features. In particular, we train a regression model that leverages LLM attention maps, probabilities on the current generation step, and recurrently computed uncertainty scores from previously generated tokens. To incorporate the recurrent features, we also suggest a two-staged training procedure. Our experimental evaluation on ten datasets and three LLMs shows that the proposed method is highly effective for selective generation, achieving substantial improvements over rivaling unsupervised and supervised approaches.