Gauging Overprecision in LLMs: An Empirical Study

📄 arXiv: 2504.12098v2 📥 PDF

作者: Adil Bahaj, Hamed Rahimi, Mohamed Chetouani, Mounir Ghogho

分类: cs.CL

发布日期: 2025-04-16 (更新: 2025-04-27)

备注: 16 pages


💡 一句话要点

提出评估LLM过度精确性的框架,揭示其在数值任务中的不确定性校准问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 过度自信 过度精确性 数值任务 不确定性校准

📋 核心要点

  1. 现有方法依赖LLM自身生成置信度,易受偏差影响,无法准确评估其不确定性。
  2. 设计包含生成、细化和评估三阶段的框架,通过区间预测和指定置信度来评估LLM的过度精确性。
  3. 实验表明LLM在数值任务中未良好校准,区间长度与置信度无关,细化无法显著提高精度。

📝 摘要(中文)

本文关注大语言模型(LLM)的过度自信问题,特别是过度精确性。现有方法通常要求LLM生成置信度(口头置信度),容易受到偏差和幻觉的影响。受认知科学中过度精确性概念的启发,本文设计了一个框架,用于研究黑盒LLM中的过度精确性。该框架包含生成、细化和评估三个阶段:首先,提示LLM以区间的形式生成数值问题的答案,并指定置信度水平;然后,对答案进行细化以提高质量;最后,评估和研究LLM的答案,以了解其内部运作。研究表明,LLM在数值任务中未经过良好校准,区间长度与置信度水平之间没有相关性,且数值精度因任务和提示技术而异,答案细化通常无法提高精度。该研究为LLM过度自信提供了新视角,并为LLM过度精确性研究奠定了基础。

🔬 方法详解

问题定义:论文旨在解决如何有效评估大语言模型(LLM)在数值任务中的过度精确性问题。现有方法主要通过让LLM直接输出其置信度(verbalized confidence),但这种方式容易受到各种偏差和幻觉的影响,无法真实反映LLM对答案的确定程度。因此,需要一种更客观、更可靠的方法来评估LLM的过度精确性。

核心思路:论文的核心思路是借鉴认知科学中的“过度精确性”概念,并将其应用于评估LLM。具体而言,不是直接询问LLM的置信度,而是要求LLM以区间的形式给出答案,并预先设定置信度水平。通过分析LLM生成的区间与实际答案之间的关系,以及区间长度与置信度水平之间的关系,来判断LLM是否存在过度精确性问题。

技术框架:该框架包含三个主要阶段:1) 生成阶段:使用不同的prompting技术,多次提示LLM生成数值问题的答案,答案形式为具有一定置信度水平的区间。2) 细化阶段:对生成阶段的答案进行细化,以期获得更准确的答案。3) 评估阶段:对LLM的答案进行评估和分析,以了解其内部运作机制,并判断是否存在过度精确性问题。

关键创新:该论文的关键创新在于提出了一种新的评估LLM过度精确性的框架,该框架不依赖于LLM自身生成的置信度,而是通过分析LLM生成的区间与实际答案之间的关系来评估其过度精确性。这种方法更加客观、可靠,可以更准确地反映LLM对答案的确定程度。

关键设计:在生成阶段,论文使用了多种prompting技术,并多次使用相同的prompt,以评估生成过程中的随机性对结果的影响。在评估阶段,论文分析了LLM生成的区间长度与置信度水平之间的关系,以及LLM在不同任务和不同尺度下的数值精度。此外,论文还评估了细化答案对提高精度的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在数值任务中表现出高度的未校准性,即其设定的置信度水平与其准确性不符。此外,区间长度与置信度水平之间没有明显的相关性,表明LLM可能缺乏对置信度概念的理解或无法根据指令调整自信程度。不同任务、答案尺度和prompting技术对LLM的数值精度有显著影响,而答案细化在大多数情况下无法提高精度。

🎯 应用场景

该研究成果可应用于评估和提高LLM在数值计算、数据分析、科学建模等领域的可靠性。通过了解LLM的过度精确性程度,可以更好地利用LLM解决实际问题,并避免因过度信任LLM而导致的错误决策。未来,该研究可以扩展到其他类型的任务和模型,以更全面地评估LLM的可靠性。

📄 摘要(原文)

Recently, overconfidence in large language models (LLMs) has garnered considerable attention due to its fundamental importance in quantifying the trustworthiness of LLM generation. However, existing approaches prompt the \textit{black box LLMs} to produce their confidence (\textit{verbalized confidence}), which can be subject to many biases and hallucinations. Inspired by a different aspect of overconfidence in cognitive science called \textit{overprecision}, we designed a framework for its study in black box LLMs. This framework contains three main phases: 1) generation, 2) refinement and 3) evaluation. In the generation phase we prompt the LLM to generate answers to numerical questions in the form of intervals with a certain level of confidence. This confidence level is imposed in the prompt and not required for the LLM to generate as in previous approaches. We use various prompting techniques and use the same prompt multiple times to gauge the effects of randomness in the generation process. In the refinement phase, answers from the previous phase are refined to generate better answers. The LLM answers are evaluated and studied in the evaluation phase to understand its internal workings. This study allowed us to gain various insights into LLM overprecision: 1) LLMs are highly uncalibrated for numerical tasks 2) there is no correlation between the length of the interval and the imposed confidence level, which can be symptomatic of a a) lack of understanding of the concept of confidence or b) inability to adjust self-confidence by following instructions, {3) LLM numerical precision differs depending on the task, scale of answer and prompting technique 4) Refinement of answers doesn't improve precision in most cases. We believe this study offers new perspectives on LLM overconfidence and serves as a strong baseline for overprecision in LLMs.