Do Large Language Models Know What They Are Capable Of?

作者: Casey O. Barkan, Sid Black, Oliver Sourbut

分类: cs.CL, cs.AI

发布日期: 2025-12-31

备注: 23 pages, 8 figures

💡 一句话要点

评估大语言模型自我认知能力：模型能否准确预测自身任务表现？

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自我认知 能力评估 过度自信 决策能力

📋 核心要点

现有大语言模型在复杂任务中表现出强大的能力，但缺乏对其自身能力的准确评估，导致过度自信和决策失误。
该研究通过设计实验，评估LLM在不同任务阶段预测自身成功率的能力，并考察其从失败经验中学习的能力。
实验发现LLM普遍存在过度自信问题，且推理能力强的模型表现并不优于非推理模型，但部分模型能从失败经验中学习并改善决策。

📝 摘要（中文）

本文研究了大语言模型（LLM）是否能够预测其在给定任务上的成功率，以及预测能力是否随着多步骤任务的进展而提高。同时，还探讨了LLM能否从上下文经验中学习，从而在失败代价高昂的情况下，更好地决定是否继续执行任务。实验结果表明，所有测试的LLM都过于自信，但大多数模型在区分成功与失败方面具有优于随机水平的判别能力。更新、更大的LLM通常没有表现出更强的判别能力，但Claude模型呈现出这种趋势。在多步骤任务中，一些前沿LLM的过度自信程度随着任务的进展而加剧，并且推理型LLM的表现与非推理型LLM相当甚至更差。通过上下文失败经验，部分LLM降低了过度自信，从而显著改善了决策能力，而另一些LLM则不然。有趣的是，所有LLM的决策在给定其估计的成功概率下都是近似合理的，但过于乐观的估计导致了糟糕的决策。这些结果表明，当前LLM智能体的局限性在于缺乏对其自身能力的认知。最后，讨论了LLM对自身能力认知不足对AI滥用和不对齐风险的影响。

🔬 方法详解

问题定义：该论文旨在研究大型语言模型（LLM）是否具备准确评估自身能力的能力，即能否准确预测其在特定任务上的成功概率。现有方法的痛点在于，尽管LLM在各种任务中表现出色，但它们常常过度自信，导致在需要权衡风险和收益的场景下做出错误的决策。这种过度自信源于LLM缺乏对其自身局限性的认知，可能导致在实际应用中出现问题。

核心思路：论文的核心思路是通过设计一系列实验，直接评估LLM预测自身任务成功率的能力。通过比较LLM的预测与实际表现，可以量化其自信程度和判别能力。此外，论文还研究了LLM从上下文失败经验中学习的能力，即能否通过观察之前的失败案例来调整其对自身能力的评估。

技术框架：论文的实验框架主要包括以下几个步骤：1) 给定LLM一个任务；2) 要求LLM预测其完成任务的概率；3) 让LLM执行任务；4) 比较LLM的预测与实际结果，评估其自信程度和判别能力。对于学习能力的研究，论文引入了上下文失败经验，即在LLM执行任务之前，向其展示一些失败案例，观察其预测和决策是否发生变化。论文使用了多种LLM进行实验，包括GPT系列和Claude系列。

关键创新：该论文的关键创新在于直接评估了LLM的自我认知能力，并揭示了LLM普遍存在的过度自信问题。此外，论文还发现，尽管LLM的决策在给定其估计的成功概率下是近似合理的，但由于其过于乐观的估计，导致了糟糕的决策。这一发现表明，提高LLM的自我认知能力是改善其决策能力的关键。

关键设计：论文的关键设计包括：1) 设计了多种类型的任务，以评估LLM在不同场景下的自我认知能力；2) 使用了不同的LLM，以比较不同模型的表现；3) 引入了上下文失败经验，以研究LLM的学习能力；4) 使用了合适的评估指标，如校准误差和判别能力，来量化LLM的自我认知能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所有测试的LLM都过于自信，但大多数模型在区分成功与失败方面具有优于随机水平的判别能力。更新、更大的LLM通常没有表现出更强的判别能力，但Claude模型呈现出这种趋势。在多步骤任务中，一些前沿LLM的过度自信程度随着任务的进展而加剧。通过上下文失败经验，部分LLM降低了过度自信，从而显著改善了决策能力。

🎯 应用场景

该研究成果可应用于提升LLM在实际应用中的可靠性和安全性。例如，在医疗诊断、金融投资等高风险领域，准确评估LLM的能力至关重要。通过提高LLM的自我认知能力，可以减少其过度自信带来的决策失误，降低潜在风险。此外，该研究还有助于开发更安全、更可靠的AI系统，避免AI滥用和不对齐风险。

📄 摘要（原文）

We investigate whether large language models (LLMs) can predict whether they will succeed on a given task and whether their predictions improve as they progress through multi-step tasks. We also investigate whether LLMs can learn from in-context experiences to make better decisions about whether to pursue a task in scenarios where failure is costly. All LLMs we tested are overconfident, but most predict their success with better-than-random discriminatory power. We find that newer and larger LLMs generally do not have greater discriminatory power, though Claude models do show such a trend. On multi-step agentic tasks, the overconfidence of several frontier LLMs worsens as they progress through the tasks, and reasoning LLMs perform comparably to or worse than non-reasoning LLMs. With in-context experiences of failure, some but not all LLMs reduce their overconfidence leading to significantly improved decision making, while others do not. Interestingly, all LLMs' decisions are approximately rational given their estimated probabilities of success, yet their overly-optimistic estimates result in poor decision making. These results suggest that current LLM agents are hindered by their lack of awareness of their own capabilities. We discuss the implications of LLMs' awareness of their capabilities for AI misuse and misalignment risks.

Do Large Language Models Know What They Are Capable Of?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理