Hidden Failures in Robustness: Why Supervised Uncertainty Quantification Needs Better Evaluation

📄 arXiv: 2604.11662v1 📥 PDF

作者: Joe Stacey, Hadas Orgad, Kentaro Inui, Benjamin Heinzerling, Nafise Sadat Moosavi

分类: cs.CL

发布日期: 2026-04-13


💡 一句话要点

揭示鲁棒性中的隐藏失效:监督不确定性量化需要更好的评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 不确定性量化 鲁棒性 分布偏移 语言模型 探针学习

📋 核心要点

  1. 现有基于探针的不确定性估计方法在分布偏移下鲁棒性不足,尤其是在长文本生成任务中。
  2. 通过系统研究不同探针设计(表示层、特征类型、token聚合策略)对鲁棒性的影响,揭示关键因素。
  3. 提出一种简单的混合回退策略,旨在提高不确定性估计探针在分布偏移下的鲁棒性。

📝 摘要(中文)

最近的研究表明,大型语言模型的隐藏状态包含可用于不确定性估计和幻觉检测的信号,这激发了人们对高效的基于探针方法日益增长的兴趣。然而,目前尚不清楚现有方法的鲁棒性如何,以及哪些探针设计能够提供在分布偏移下可靠的不确定性估计。我们对跨模型、任务和OOD设置的监督不确定性探针进行了系统研究,训练了2000多个探针,同时改变了表示层、特征类型和token聚合策略。我们的评估突出了当前方法的鲁棒性较差,尤其是在长文本生成的情况下。我们还发现,探针的鲁棒性更多地取决于探针的输入,而不是架构。中间层表示比最后一层隐藏状态更可靠地泛化,并且跨响应token进行聚合始终比依赖于单token特征更鲁棒。这些差异在同分布中通常不太明显,但在分布偏移下变得更加重要。在我们的评估基础上,我们探索了一种简单的混合回退策略来提高鲁棒性,并认为更好的评估是构建更鲁棒探针的先决条件。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中,利用隐藏状态进行不确定性量化时,现有监督探针方法在分布偏移(OOD)情况下鲁棒性不足的问题。现有方法在同分布数据上表现良好,但在实际应用中,模型往往会遇到与训练数据不同的输入,导致不确定性估计失效,产生误导性的结果。尤其是在长文本生成任务中,这种问题更为突出。

核心思路:论文的核心思路是通过大规模的实验评估,系统性地分析不同探针设计(包括表示层选择、特征类型和token聚合策略)对鲁棒性的影响,从而找到更可靠的探针设计。此外,论文还提出了一种简单的混合回退策略,以提高探针在OOD情况下的鲁棒性。

技术框架:论文的技术框架主要包括以下几个步骤:1)选择多个大型语言模型和任务;2)设计不同的监督不确定性探针,包括改变表示层(如中间层和最后一层)、特征类型(如token embedding)和token聚合策略(如单token和多token聚合);3)在同分布(In-Distribution, ID)和分布偏移(Out-of-Distribution, OOD)数据上训练这些探针;4)评估探针在ID和OOD数据上的性能,分析不同探针设计的鲁棒性;5)提出并评估一种混合回退策略,以提高探针的鲁棒性。

关键创新:论文最重要的技术创新点在于对监督不确定性探针的鲁棒性进行了系统性的评估,揭示了现有方法在OOD情况下的局限性。论文发现,探针的鲁棒性更多地取决于探针的输入,而不是架构本身。具体来说,中间层表示比最后一层隐藏状态更可靠地泛化,并且跨响应token进行聚合始终比依赖于单token特征更鲁棒。这些发现为设计更鲁棒的不确定性估计探针提供了重要的指导。

关键设计:论文的关键设计包括:1)选择不同的表示层:比较中间层和最后一层隐藏状态的性能;2)选择不同的特征类型:使用token embedding作为探针的输入特征;3)设计不同的token聚合策略:比较单token和多token聚合的性能;4)构建OOD数据集:通过改变输入数据的分布,模拟实际应用中可能遇到的情况;5)提出混合回退策略:当探针在OOD数据上表现不佳时,回退到更保守的不确定性估计方法。

📊 实验亮点

实验结果表明,中间层表示比最后一层隐藏状态具有更好的泛化能力,且跨token聚合策略优于单token特征。在OOD设置下,这些差异更加显著。通过混合回退策略,可以有效提高探针在OOD数据上的鲁棒性,在某些情况下,性能提升可达显著水平(具体数值未在摘要中给出,属于未知信息)。

🎯 应用场景

该研究成果可应用于各种需要可靠不确定性估计的自然语言处理任务中,例如机器翻译、文本摘要、对话系统等。通过提高不确定性估计的鲁棒性,可以减少模型在实际应用中产生错误或误导性结果的风险,从而提高系统的可靠性和安全性。此外,该研究还可以为开发更安全、更值得信赖的人工智能系统提供指导。

📄 摘要(原文)

Recent work has shown that the hidden states of large language models contain signals useful for uncertainty estimation and hallucination detection, motivating a growing interest in efficient probe-based approaches. Yet it remains unclear how robust existing methods are, and which probe designs provide uncertainty estimates that are reliable under distribution shift. We present a systematic study of supervised uncertainty probes across models, tasks, and OOD settings, training over 2,000 probes while varying the representation layer, feature type, and token aggregation strategy. Our evaluation highlights poor robustness in current methods, particularly in the case of long-form generations. We also find that probe robustness is driven less by architecture and more by the probe inputs. Middle-layer representations generalise more reliably than final-layer hidden states, and aggregating across response tokens is consistently more robust than relying on single-token features. These differences are often largely invisible in-distribution but become more important under distribution shift. Informed by our evaluation, we explore a simple hybrid back-off strategy for improving robustness, arguing that better evaluation is a prerequisite for building more robust probes.