Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty?

📄 arXiv: 2505.24778v2 📥 PDF

作者: Jiayu Liu, Qing Zong, Weiqi Wang, Yangqiu Song

分类: cs.CL

发布日期: 2025-05-30 (更新: 2025-07-01)

备注: ACL2025 Main

🔗 代码/项目: GITHUB


💡 一句话要点

研究表明大型语言模型的认知标记在分布外场景下无法准确反映其不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 置信度估计 认知标记 不确定性 分布外泛化

📋 核心要点

  1. 大型语言模型在关键领域应用日益广泛,但现有方法难以准确评估其置信度,尤其是在分布外场景下。
  2. 论文核心思想是定义“标记置信度”,即模型使用特定认知标记时的观测准确率,以此评估标记的可靠性。
  3. 实验结果表明,认知标记在同分布数据上表现良好,但在分布外数据上置信度不一致,引发了对LLM置信度评估的担忧。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地应用于高风险领域,准确评估其置信度至关重要。人类通常通过认知标记(例如,“相当自信”)而不是数值来表达置信度。然而,由于难以量化与各种标记相关的不确定性,LLM是否始终如一地使用这些标记来反映其内在置信度仍不清楚。为了解决这一差距,我们首先将标记置信度定义为模型采用认知标记时观察到的准确性。我们在分布内和分布外设置中的多个问答数据集上评估了开源和专有LLM的标记置信度稳定性。结果表明,虽然标记在同一分布内泛化良好,但其置信度在分布外场景中不一致。这些发现引起了人们对认知标记在置信度估计中的可靠性的重大担忧,强调需要改进基于标记的置信度与实际模型不确定性之间的一致性。我们的代码可在https://github.com/HKUST-KnowComp/MarCon上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在置信度估计方面的问题。现有方法依赖于LLM生成的数值置信度,但这些数值往往与模型的实际不确定性不一致。人类通常使用认知标记(如“可能”、“确定”)来表达置信度,但LLM是否能正确使用这些标记来反映其内在置信度尚不明确。现有方法的痛点在于难以量化和评估这些认知标记的可靠性,尤其是在分布外(out-of-distribution)场景下。

核心思路:论文的核心思路是将“标记置信度”定义为模型使用特定认知标记时观察到的准确率。通过分析不同LLM在不同数据集上使用相同标记时的准确率,可以评估该标记的可靠性和一致性。如果一个标记在不同情况下都能反映相似的准确率,则认为该标记是可靠的。反之,如果准确率差异很大,则说明该标记不可靠。这种方法提供了一种量化和评估LLM认知标记置信度的新途径。

技术框架:论文的技术框架主要包括以下几个步骤:1) 定义认知标记集合:选择一组常用的认知标记,例如“非常确定”、“可能”、“不确定”等。2) 构建问答数据集:使用多个问答数据集,包括分布内和分布外的数据集,以评估标记在不同场景下的表现。3) 提示LLM生成答案和认知标记:使用特定的提示工程方法,要求LLM在生成答案的同时,选择一个合适的认知标记来表达其置信度。4) 计算标记置信度:对于每个认知标记,计算模型使用该标记时的准确率。5) 分析标记置信度的稳定性:比较不同数据集和不同LLM之间标记置信度的差异,评估标记的可靠性和一致性。

关键创新:论文的关键创新在于提出了“标记置信度”的概念,并将其用于评估LLM认知标记的可靠性。与现有方法不同,该方法不依赖于LLM生成的数值置信度,而是直接分析认知标记与模型实际准确率之间的关系。这种方法更符合人类表达置信度的方式,并且可以更好地揭示LLM在置信度估计方面的不足。此外,论文还首次系统地研究了LLM认知标记在分布外场景下的表现,发现了其可靠性问题。

关键设计:论文的关键设计包括:1) 提示工程:设计合适的提示语,引导LLM生成答案和认知标记。2) 数据集选择:选择具有代表性的分布内和分布外问答数据集,以评估标记在不同场景下的表现。3) 评估指标:使用准确率作为评估标记置信度的指标。4) 模型选择:选择多个开源和专有LLM进行评估,以验证结果的普遍性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在同分布数据上使用认知标记时,其置信度相对稳定。然而,在分布外数据上,认知标记的置信度显著下降,表明LLM无法准确地将其内在不确定性映射到认知标记上。这一发现对LLM在实际应用中的可靠性提出了质疑,并强调了改进LLM置信度估计的必要性。

🎯 应用场景

该研究成果可应用于提升大型语言模型在医疗、金融等高风险领域的可靠性。通过改进认知标记的使用,可以使LLM更准确地表达其不确定性,从而帮助用户做出更明智的决策。未来的研究可以探索更有效的提示工程方法,以及如何训练LLM更好地校准其认知标记。

📄 摘要(原文)

As large language models (LLMs) are increasingly used in high-stakes domains, accurately assessing their confidence is crucial. Humans typically express confidence through epistemic markers (e.g., "fairly confident") instead of numerical values. However, it remains unclear whether LLMs consistently use these markers to reflect their intrinsic confidence due to the difficulty of quantifying uncertainty associated with various markers. To address this gap, we first define marker confidence as the observed accuracy when a model employs an epistemic marker. We evaluate its stability across multiple question-answering datasets in both in-distribution and out-of-distribution settings for open-source and proprietary LLMs. Our results show that while markers generalize well within the same distribution, their confidence is inconsistent in out-of-distribution scenarios. These findings raise significant concerns about the reliability of epistemic markers for confidence estimation, underscoring the need for improved alignment between marker based confidence and actual model uncertainty. Our code is available at https://github.com/HKUST-KnowComp/MarCon.