Can Large Language Models Express Uncertainty Like Human?

📄 arXiv: 2509.24202v1 📥 PDF

作者: Linwei Tao, Yi-Fan Yeh, Bo Kai, Minjing Dong, Tao Huang, Tom A. Lamb, Jialin Yu, Philip H. S. Torr, Chang Xu

分类: cs.CL, cs.AI

发布日期: 2025-09-29

备注: 10 pages


💡 一句话要点

提出语言置信度方法,提升大语言模型不确定性表达能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 不确定性估计 语言置信度 对冲语言 置信度校准

📋 核心要点

  1. 现有大语言模型在表达不确定性时存在不足,过度自信可能导致误导,而传统方法如logits和多重抽样存在局限性。
  2. 论文提出利用语言置信度(LC),即通过对冲语言表达不确定性,并构建轻量级映射器将对冲转换为置信度分数。
  3. 通过系统研究和微调框架,论文证明了精心设计的提示可以提升大语言模型在表达可靠语言置信度方面的性能。

📝 摘要(中文)

大语言模型(LLMs)越来越多地应用于高风险场景,过度自信的回答可能会误导用户。可靠的置信度估计已被证明可以增强信任和任务准确性。然而,现有方法面临实际障碍:logits通常被隐藏,多重抽样计算成本高昂,并且口头数字不确定性(例如,给出0-100的分数)偏离了自然交流。我们重新审视语言置信度(LC),模型通过对冲语言(例如,可能,也许)来表达不确定性,提供了一种轻量级且以人为中心的替代方案。为了推进这个方向,我们(1)发布了第一个多样化、大规模的对冲表达数据集,其中包含人工标注的置信度分数,并且(2)提出了一个轻量级映射器,以接近零成本将对冲转换为置信度分数。基于这些资源,我们(3)对现代LLM和QA基准进行了首次LC系统研究,揭示了虽然大多数LLM在表达可靠的LC方面表现不佳,但精心设计的提示可以实现有竞争力的校准和区分能力。最后,我们(4)引入了一个微调框架,进一步提高了LC的可靠性。总而言之,我们的工作将语言置信度定位为一种可扩展、高效且与人类对齐的LLM不确定性估计方法,并呼吁更深入地探索这个有前景但尚未充分探索的方向。

🔬 方法详解

问题定义:论文旨在解决大语言模型在表达不确定性时不够可靠的问题。现有方法,如直接使用logits或进行多重抽样,存在实际应用障碍,例如logits通常不可访问,多重抽样计算成本高昂。此外,使用数字置信度分数与人类的自然交流方式不符。

核心思路:论文的核心思路是利用语言置信度(Linguistic Confidence, LC),即让模型通过使用对冲语言(如“可能”、“也许”)来表达其预测的不确定性。这种方法更符合人类的交流习惯,并且计算成本较低。

技术框架:整体框架包括以下几个主要部分:1) 构建大规模对冲表达数据集,包含人工标注的置信度分数。2) 设计轻量级映射器,将对冲表达转换为置信度分数。3) 对现有大语言模型进行系统评估,分析其在表达语言置信度方面的表现。4) 提出微调框架,进一步提升模型表达语言置信度的可靠性。

关键创新:论文的关键创新在于将语言置信度引入到大语言模型的不确定性估计中,并提供了一套完整的解决方案,包括数据集、映射器、评估方法和微调框架。与现有方法相比,该方法更轻量级、更符合人类习惯,并且更易于部署。

关键设计:论文的关键设计包括:1) 数据集的构建,需要保证对冲表达的多样性和置信度标注的准确性。2) 映射器的设计,需要考虑如何将不同的对冲表达映射到合适的置信度分数。3) 微调框架的设计,需要选择合适的损失函数和训练策略,以提升模型表达语言置信度的能力。具体的参数设置、损失函数、网络结构等细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,精心设计的提示可以使大语言模型在表达语言置信度方面达到具有竞争力的校准和区分能力。此外,通过微调框架,可以进一步提高语言置信度的可靠性。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于任何需要大语言模型提供可靠置信度估计的场景,例如医疗诊断、金融风险评估、法律咨询等。通过提升模型的不确定性表达能力,可以增强用户对模型的信任,并减少因过度自信而导致的错误决策。未来,该方法有望成为大语言模型安全性和可靠性的重要组成部分。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in high-stakes settings, where overconfident responses can mislead users. Reliable confidence estimation has been shown to enhance trust and task accuracy. Yet existing methods face practical barriers: logits are often hidden, multi-sampling is computationally expensive, and verbalized numerical uncertainty (e.g., giving a 0-100 score) deviates from natural communication. We revisit linguistic confidence (LC), where models express uncertainty through hedging language (e.g., probably, might), offering a lightweight and human-centered alternative. To advance this direction, we (1) release the first diverse, large-scale dataset of hedging expressions with human-annotated confidence scores, and (2) propose a lightweight mapper that converts hedges into confidence scores at near-zero cost. Building on these resources, we (3) conduct the first systematic study of LC across modern LLMs and QA benchmarks, revealing that while most LLMs underperform in expressing reliable LC, carefully designed prompting achieves competitive calibration and discriminability. Finally, we (4) introduce a fine-tuning framework that further improves LC reliability. Taken together, our work positions linguistic confidence as a scalable, efficient, and human-aligned approach to LLM uncertainty estimation, and calls for deeper exploration of this promising yet underexplored direction.