SConU: Selective Conformal Uncertainty in Large Language Models

📄 arXiv: 2504.14154v2 📥 PDF

作者: Zhiyuan Wang, Qingni Wang, Yue Zhang, Tianlong Chen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu

分类: cs.CL, cs.AI, cs.LG, stat.ML

发布日期: 2025-04-19 (更新: 2025-06-28)

备注: Accepted by ACL 2025 Main


💡 一句话要点

SConU:通过选择性一致性不确定性,提升大语言模型在实际应用中的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 一致性预测 不确定性量化 显著性检验 异常检测

📋 核心要点

  1. 现有大语言模型的一致性不确定性方法难以识别违反可交换性假设的异常值,导致覆盖率不可控。
  2. SConU通过引入一致性p值进行显著性检验,判断样本是否偏离校准集的不确定性分布。
  3. SConU在单领域和跨学科环境中实现了更严格的错误覆盖率管理,并提高了预测效率,尤其是在高风险问答任务中。

📝 摘要(中文)

随着大型语言模型在实际应用中日益普及,保证任务特定指标对于其可靠部署至关重要。以往的研究引入了基于分离一致性预测的各种一致性不确定性标准,这些标准提供了用户指定正确性覆盖率。然而,现有的框架通常无法识别违反可交换性假设的不确定性数据异常值,导致无界的错误覆盖率和无法执行的预测集。在本文中,我们提出了一种名为选择性一致性不确定性(SConU)的新方法,该方法首次通过开发两种一致性p值来实现显著性检验,这有助于确定给定样本是否在特定可管理风险水平上偏离校准集的不确定性分布。我们的方法不仅有助于严格管理单领域和跨学科环境中的错误覆盖率,而且提高了预测效率。此外,我们全面分析了一致性程序,旨在近似条件覆盖率,尤其是在高风险问答任务中。

🔬 方法详解

问题定义:现有的大语言模型一致性预测方法,在实际应用中,由于数据分布的复杂性和多样性,常常会遇到违反可交换性假设的异常样本。这些异常样本会导致预测结果的置信度评估失效,进而导致错误覆盖率超出预期,使得预测结果不可靠,尤其是在高风险场景下,这种不可靠性是无法接受的。因此,如何有效地识别和处理这些异常样本,保证预测结果的可靠性,是本文要解决的核心问题。

核心思路:SConU的核心思路是通过显著性检验来识别那些与校准集不确定性分布存在显著差异的样本。具体来说,就是为每个样本计算一个一致性p值,该p值反映了该样本的不确定性程度与校准集整体不确定性分布的相似程度。如果p值低于预设的风险水平,则认为该样本是一个异常值,需要特殊处理或拒绝预测。这样,就可以有效地过滤掉那些可能导致错误覆盖率超标的异常样本,从而提高预测结果的可靠性。

技术框架:SConU的技术框架主要包含以下几个步骤:1)使用校准集数据,训练一个大语言模型,并计算每个样本的不确定性得分;2)基于校准集的不确定性得分,构建一个不确定性分布;3)对于新的待预测样本,计算其不确定性得分,并基于校准集的不确定性分布,计算该样本的一致性p值;4)将p值与预设的风险水平进行比较,如果p值低于风险水平,则认为该样本是一个异常值,否则认为该样本是一个正常样本;5)对于正常样本,使用大语言模型进行预测,并根据一致性预测方法,生成一个预测集;对于异常样本,可以拒绝预测,或者采用其他更保守的预测策略。

关键创新:SConU最关键的创新在于引入了一致性p值的概念,并将其用于显著性检验,从而实现了对不确定性数据异常值的有效识别。与现有的方法相比,SConU能够更加准确地评估每个样本的不确定性程度,并根据其与校准集不确定性分布的相似程度,动态地调整预测策略。这种选择性的预测策略,可以有效地提高预测结果的可靠性,尤其是在数据分布复杂多变的实际应用场景中。

关键设计:SConU的关键设计包括:1)如何选择合适的不确定性度量指标,例如熵、互信息等,来准确地反映样本的不确定性程度;2)如何构建一个能够准确反映校准集不确定性分布的统计模型,例如核密度估计、高斯混合模型等;3)如何选择合适的风险水平,以平衡预测的覆盖率和准确率;4)如何设计有效的异常样本处理策略,例如拒绝预测、采用更保守的预测集生成方法等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的SConU方法,通过引入一致性p值进行显著性检验,有效识别了不确定性数据异常值,显著提升了预测的可靠性。实验结果表明,SConU在多个数据集上实现了更严格的错误覆盖率管理,并提高了预测效率,尤其是在高风险问答任务中表现突出。

🎯 应用场景

SConU可广泛应用于对预测可靠性要求高的领域,如医疗诊断、金融风控、自动驾驶等。通过提供可信赖的预测结果和风险评估,SConU能够帮助决策者做出更明智的决策,降低潜在风险。未来,SConU有望成为大语言模型在关键领域应用的重要保障。

📄 摘要(原文)

As large language models are increasingly utilized in real-world applications, guarantees of task-specific metrics are essential for their reliable deployment. Previous studies have introduced various criteria of conformal uncertainty grounded in split conformal prediction, which offer user-specified correctness coverage. However, existing frameworks often fail to identify uncertainty data outliers that violate the exchangeability assumption, leading to unbounded miscoverage rates and unactionable prediction sets. In this paper, we propose a novel approach termed Selective Conformal Uncertainty (SConU), which, for the first time, implements significance tests, by developing two conformal p-values that are instrumental in determining whether a given sample deviates from the uncertainty distribution of the calibration set at a specific manageable risk level. Our approach not only facilitates rigorous management of miscoverage rates across both single-domain and interdisciplinary contexts, but also enhances the efficiency of predictions. Furthermore, we comprehensively analyze the components of the conformal procedures, aiming to approximate conditional coverage, particularly in high-stakes question-answering tasks.