Uncertainty-Aware Transformers: Conformal Prediction for Language Models

📄 arXiv: 2604.08885v1 📥 PDF

作者: Abhiram Vellore, Niraj K. Jha

分类: cs.LG

发布日期: 2026-04-10


💡 一句话要点

提出CONFIDE框架,为Transformer语言模型提供不确定性量化和可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Transformer模型 不确定性量化 共形预测 可解释性 自然语言处理

📋 核心要点

  1. 现有Transformer模型作为黑盒,缺乏不确定性量化,限制了其在高风险场景中的应用。
  2. CONFIDE框架利用共形预测量化Transformer内部嵌入的不确定性,提供实例级别的解释。
  3. 实验表明,CONFIDE提高了测试精度和预测效率,并在资源受限场景下表现出鲁棒性。

📝 摘要(中文)

Transformer模型在人工智能领域,尤其是在大型语言模型及其变体中,产生了深远的影响。然而,与神经网络一样,它们的黑盒特性限制了在高风险环境中的信任和部署。为了使模型在关键应用中真正有用和值得信赖,它们必须提供超越预测的信息:它们必须让用户清楚地了解其决策背后的推理。本文提出了一种基于Transformer语言模型的不确定性量化框架,名为CONFIDE(CONformal prediction for FIne-tuned DEep language models)。CONFIDE将共形预测应用于仅编码器架构(如BERT和RoBERTa)的内部嵌入,同时支持超参数调整。CONFIDE使用[CLS] token嵌入或扁平化的隐藏状态来构建类条件非一致性分数,从而实现具有实例级解释的统计有效预测集。实验结果表明,CONFIDE在BERT-tiny上将测试精度提高了高达4.09%,并且与包括NM2和VanillaNN在内的先前方法相比,实现了更高的正确效率(即,预测集的预期大小以包含真实标签为条件)。我们表明,早期和中间Transformer层通常会产生更好校准和更具语义意义的共形预测表示。在资源受限的模型和具有模糊标签的高风险任务中,CONFIDE提供了softmax不确定性失败时的鲁棒性和可解释性。我们将CONFIDE定位为一个框架,用于在先前的共形基线上进行实际诊断和效率/鲁棒性改进。

🔬 方法详解

问题定义:论文旨在解决Transformer语言模型缺乏不确定性量化的问题。现有方法,如基于softmax的不确定性估计,在资源受限或标签模糊的情况下表现不佳,且缺乏可解释性,难以在高风险场景中应用。

核心思路:论文的核心思路是将共形预测(Conformal Prediction)应用于Transformer模型的内部嵌入表示。共形预测是一种与模型无关的方法,可以提供具有统计保证的预测集,从而量化模型的不确定性。通过分析不同Transformer层的嵌入表示,可以找到更适合共形预测的特征,并提供实例级别的解释。

技术框架:CONFIDE框架主要包含以下几个阶段:1)选择Transformer模型(如BERT、RoBERTa);2)提取模型的内部嵌入表示(如[CLS] token嵌入或扁平化的隐藏状态);3)计算类条件非一致性分数(nonconformity score),衡量样本与所属类别的相似度;4)利用非一致性分数构建预测集,预测集的大小反映了模型的不确定性;5)通过超参数调整优化预测集的效率和准确性。

关键创新:CONFIDE的关键创新在于将共形预测应用于Transformer模型的内部表示,并探索了不同Transformer层对不确定性量化的影响。与传统的基于softmax的不确定性估计方法相比,CONFIDE提供了更可靠的不确定性量化,并且能够提供实例级别的解释。此外,CONFIDE框架具有模型无关性,可以应用于不同的Transformer架构。

关键设计:CONFIDE的关键设计包括:1)选择合适的嵌入表示:论文探索了[CLS] token嵌入和扁平化的隐藏状态,并发现不同层的嵌入表示对共形预测的效果有影响;2)定义非一致性分数:论文使用类条件非一致性分数,衡量样本与所属类别的相似度;3)调整预测集的大小:通过调整置信水平(confidence level),可以控制预测集的大小,从而平衡预测的准确性和效率;4)超参数优化:使用验证集优化超参数,如置信水平和非一致性分数的计算方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CONFIDE在BERT-tiny上将测试精度提高了高达4.09%,并且与包括NM2和VanillaNN在内的先前方法相比,实现了更高的正确效率。此外,研究发现早期和中间Transformer层通常会产生更好校准和更具语义意义的共形预测表示。这些结果表明,CONFIDE能够有效地量化Transformer模型的不确定性,并在资源受限和标签模糊的情况下提供鲁棒性。

🎯 应用场景

CONFIDE框架可应用于需要高可靠性和可解释性的自然语言处理任务,如医疗诊断、金融风险评估、法律文本分析等。通过提供不确定性量化,CONFIDE可以帮助用户更好地理解模型的预测,并在高风险场景中做出更明智的决策。未来,该框架可以扩展到其他类型的深度学习模型和任务中。

📄 摘要(原文)

Transformers have had a profound impact on the field of artificial intelligence, especially on large language models and their variants. However, as was the case with neural networks, their black-box nature limits trust and deployment in high-stakes settings. For models to be genuinely useful and trustworthy in critical applications, they must provide more than just predictions: they must supply users with a clear understanding of the reasoning that underpins their decisions. This article presents an uncertainty quantification framework for transformer-based language models. This framework, called CONFIDE (CONformal prediction for FIne-tuned DEep language models), applies conformal prediction to the internal embeddings of encoder-only architectures, like BERT and RoBERTa, while enabling hyperparameter tuning. CONFIDE uses either [CLS] token embeddings or flattened hidden states to construct class-conditional nonconformity scores, enabling statistically valid prediction sets with instance-level explanations. Empirically, CONFIDE improves test accuracy by up to 4.09% on BERT-tiny and achieves greater correct efficiency (i.e., the expected size of the prediction set conditioned on it containing the true label) compared to prior methods, including NM2 and VanillaNN. We show that early and intermediate transformer layers often yield better-calibrated and more semantically meaningful representations for conformal prediction. In resource-constrained models and high-stakes tasks with ambiguous labels, CONFIDE offers robustness and interpretability where softmax-based uncertainty fails. We position CONFIDE as a framework for practical diagnostic and efficiency/robustness improvement over prior conformal baselines.