Reverse Probing: Supervised Token-level Uncertainty Quantification for Large Language Models in Clinical Text
作者: Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang
分类: cs.CL, cs.AI
发布日期: 2026-05-27
💡 一句话要点
提出Reverse Probing,用于临床文本中大语言模型的监督式Token级不确定性量化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 不确定性量化 临床文本摘要 大语言模型 监督学习 Token级别 Reverse Probing 医疗人工智能
📋 核心要点
- 现有不确定性量化方法难以在临床文本中进行token级别的精细定位,限制了模型在医疗领域的可靠应用。
- Reverse Probing将文本作为探针,从模型内部激活中提取不确定性信号,直接估计token级别的不确定性。
- 实验表明,Reverse Probing在临床摘要任务上显著优于现有方法,AUPRC提升高达4倍,并降低了计算成本。
📝 摘要(中文)
随着大型语言模型越来越多地应用于临床文本处理,确保它们能够可靠地指示自身的不确定性变得至关重要。现有的大多数不确定性量化(UQ)方法是为开放域生成设计的,无法在长篇临床文本中定位token或span级别的不确定性。我们提出了Reverse Probing,这是第一个专门为临床文本摘要设计的UQ框架,它直接从预先存在的标记摘要中估计token级别的不确定性。Reverse Probing没有采样新的输出,而是将文本视为对模型内部状态的探针,从四个类别的内部激活中提取不确定性信号。我们在两个专家标注的临床数据集上进行了评估,并在所有指标上优于八个调整后的基线,实现了高达4倍的AUPRC提升,同时减少了推理时间和计算成本。特征分析表明,delta能量和邻域上下文是所有模型中最一致的预测因子。这项研究为模型如何内部响应不支持的临床内容提供了可解释的见解。
🔬 方法详解
问题定义:现有的大语言模型不确定性量化方法主要面向开放域文本生成,无法有效应用于临床文本摘要任务,尤其是在token级别上定位不确定性。这些方法通常需要采样新的输出,计算成本高昂,且难以解释模型内部的不确定性来源。临床文本的特殊性(例如长文本、专业术语)进一步加剧了这一问题。
核心思路:Reverse Probing的核心思想是将已有的标注摘要文本视为对模型内部状态的“反向探针”。通过分析模型在处理这些文本时的内部激活,可以直接估计每个token级别的不确定性。这种方法避免了采样新输出的需要,降低了计算成本,并提供了对模型内部不确定性来源的更直接的解释。
技术框架:Reverse Probing框架主要包含以下几个阶段:1) 数据准备:使用预先存在的、带有标注的临床摘要数据集。2) 前向传播:将摘要文本输入到预训练的大语言模型中,记录模型在每一层的内部激活。3) 特征提取:从模型的内部激活中提取四类不确定性信号:delta能量、邻域上下文、梯度信息和注意力权重。4) 不确定性预测:使用提取的特征训练一个监督学习模型(例如逻辑回归或支持向量机)来预测每个token的不确定性。5) 评估:使用AUPRC等指标评估预测的不确定性与真实标注之间的匹配程度。
关键创新:Reverse Probing的关键创新在于它是一种监督式的token级别不确定性量化方法,专门为临床文本摘要设计。与传统的基于采样的方法不同,Reverse Probing直接利用已有的标注数据,将文本视为对模型内部状态的探针。这种方法不仅降低了计算成本,还提供了对模型内部不确定性来源的更直接的解释。
关键设计:Reverse Probing的关键设计包括:1) 特征选择:选择delta能量、邻域上下文、梯度信息和注意力权重作为不确定性信号的来源。这些特征能够反映模型在处理不同token时的内部状态变化。2) 监督学习模型:使用逻辑回归或支持向量机等简单的监督学习模型来预测token级别的不确定性。3) 评估指标:使用AUPRC作为主要评估指标,因为它能够有效衡量预测的不确定性与真实标注之间的匹配程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Reverse Probing在两个专家标注的临床数据集上显著优于八个调整后的基线方法,AUPRC提升高达4倍。特征分析表明,delta能量和邻域上下文是所有模型中最一致的预测因子。此外,Reverse Probing还降低了推理时间和计算成本,使其更适用于实际应用。
🎯 应用场景
Reverse Probing可应用于医疗领域的临床决策支持系统,帮助医生识别模型预测中存在不确定性的部分,从而提高决策的可靠性。此外,该方法还可用于评估和改进大语言模型在处理临床文本时的能力,促进模型在医疗领域的更广泛应用。未来,该方法可以扩展到其他专业领域的文本处理任务中。
📄 摘要(原文)
As large language models are increasingly deployed for clinical text, ensuring they can reliably signal their own uncertainty becomes critical. Most existing uncertainty quantification (UQ) methods are designed for open-domain generation and cannot localize uncertainty at the token or span level in long clinical text. We propose Reverse Probing, the first UQ framework specialized for clinical summarization, which estimates token-level uncertainty directly from pre-existing labeled summaries. Rather than sampling new outputs, Reverse Probing treats the text as a probe into the model's internal state, extracting uncertainty signals from four categories of internal activations. We evaluate on two expert-annotated clinical datasets and outperform eight adapted baselines on all metrics, achieving up to 4 times higher AUPRC while reducing inference time and computational costs. Feature analysis reveals that delta energy and neighborhood context are the most consistent predictors across all models. This study offers interpretable insights into how models internally respond to unsupported clinical content.