Confidence in the Reasoning of Large Language Models

📄 arXiv: 2412.15296v1 📥 PDF

作者: Yudi Pawitan, Chris Holmes

分类: cs.CL, cs.LG

发布日期: 2024-12-19


💡 一句话要点

评估大语言模型推理置信度:定性分析与量化指标相结合

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度评估 推理能力 不确定性量化 定性分析 定量分析 置信度校准 模型可靠性

📋 核心要点

  1. 现有研究缺乏对大语言模型推理结果不确定性的充分评估,难以判断模型的可信度。
  2. 论文通过定性和定量两种方式评估LLM的置信度,并分析其与准确性的相关性。
  3. 实验表明,LLM的置信度与准确性存在正相关,但模型倾向于高估自身置信度。

📝 摘要(中文)

关于大语言模型(LLM)推理的研究日益增多,但对其响应的不确定性的讨论仍然不足。本研究旨在评估LLM对其答案的置信度,以及它与准确性之间的相关性。置信度通过以下方式衡量:(i)定性方面,即在被提示重新考虑时,坚持其答案的程度;(ii)定量方面,即自我报告的置信度分数。我们研究了三个LLM——GPT4o、GPT4-turbo和Mistral——在因果判断和形式谬误的两组基准问题以及一组概率和统计难题与悖论上的表现。尽管LLM的表现明显优于随机猜测,但它们改变初始答案的倾向存在很大差异。定性置信度与准确性之间存在正相关关系,但第二个答案的总体准确性通常比第一个答案差。LLM存在高估自我报告置信度分数的强烈倾向。置信度仅部分由底层token级别的概率解释。提示对定性置信度的实质性影响以及过度自信的强烈倾向表明,当前的LLM没有任何内在连贯的置信度概念。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)在推理过程中置信度评估的问题。现有方法缺乏对LLM推理结果不确定性的有效评估,导致难以判断模型输出的可信程度。LLM在复杂推理任务中经常出现错误,但缺乏对其自身判断的可靠评估机制,这限制了其在实际应用中的可靠性。

核心思路:论文的核心思路是通过结合定性和定量两种方法来评估LLM的置信度。定性方法通过观察LLM在被提示重新考虑答案时是否坚持最初的回答来判断其置信度。定量方法则通过LLM自我报告的置信度分数来衡量。通过对比这两种置信度指标与实际准确率,可以更全面地了解LLM的置信度校准情况。

技术框架:论文采用的评估框架包括以下几个主要步骤: 1. 问题选择:选择包含因果判断、形式谬误、概率和统计难题等多种类型的推理问题。 2. 模型推理:使用GPT4o、GPT4-turbo和Mistral等LLM对问题进行推理,并记录其初始答案。 3. 置信度评估:通过定性(提示重新考虑)和定量(自我报告置信度分数)两种方式评估LLM的置信度。 4. 准确率评估:评估LLM答案的准确率,并分析置信度与准确率之间的相关性。 5. 结果分析:分析LLM的置信度校准情况,以及提示对置信度的影响。

关键创新:论文的关键创新在于结合定性和定量两种方法来评估LLM的置信度,并深入分析了LLM的置信度校准问题。与以往研究主要关注LLM的推理能力不同,本研究侧重于评估LLM对其自身推理结果的置信度,这对于提高LLM在实际应用中的可靠性至关重要。

关键设计:论文的关键设计包括: 1. 定性置信度评估:通过提示LLM重新考虑其答案,观察其是否坚持最初的回答来判断其置信度。 2. 定量置信度评估:要求LLM自我报告其对答案的置信度分数,并将其与实际准确率进行比较。 3. 问题选择:选择包含多种类型的推理问题,以更全面地评估LLM的置信度校准情况。 4. 模型选择:选择具有代表性的LLM(GPT4o、GPT4-turbo和Mistral)进行评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的定性置信度与准确性之间存在正相关关系,但LLM倾向于高估其自我报告的置信度分数。此外,提示对LLM的定性置信度有显著影响,表明当前的LLM缺乏内在连贯的置信度概念。第二个答案的总体准确性通常比第一个答案差,这表明LLM在重新考虑答案时可能会受到干扰。

🎯 应用场景

该研究成果可应用于提升大语言模型在医疗诊断、金融分析、法律咨询等领域的可靠性。通过校准模型的置信度,可以帮助用户更好地判断模型输出的可信程度,从而做出更明智的决策。未来的研究可以探索更有效的置信度评估方法,并开发能够提高模型置信度校准能力的训练技术。

📄 摘要(原文)

There is a growing literature on reasoning by large language models (LLMs), but the discussion on the uncertainty in their responses is still lacking. Our aim is to assess the extent of confidence that LLMs have in their answers and how it correlates with accuracy. Confidence is measured (i) qualitatively in terms of persistence in keeping their answer when prompted to reconsider, and (ii) quantitatively in terms of self-reported confidence score. We investigate the performance of three LLMs -- GPT4o, GPT4-turbo and Mistral -- on two benchmark sets of questions on causal judgement and formal fallacies and a set of probability and statistical puzzles and paradoxes. Although the LLMs show significantly better performance than random guessing, there is a wide variability in their tendency to change their initial answers. There is a positive correlation between qualitative confidence and accuracy, but the overall accuracy for the second answer is often worse than for the first answer. There is a strong tendency to overstate the self-reported confidence score. Confidence is only partially explained by the underlying token-level probability. The material effects of prompting on qualitative confidence and the strong tendency for overconfidence indicate that current LLMs do not have any internally coherent sense of confidence.