Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs

📄 arXiv: 2605.07806v1 📥 PDF

作者: Sree Bhattacharyya, Samarth Khanna, Leona Chen, Lucas Craig, Tharun Dilliraj, James Z. Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-08


💡 一句话要点

引入认知评价理论:通过多维自我评估提升大语言模型性能预测的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自我评估 认知评价理论 模型可靠性 性能预测 提示工程 不确定性量化

📋 核心要点

  1. 现有LLM自我评估主要依赖置信度,但其存在严重的不一致性与过度乐观偏差,难以准确预测模型失效。
  2. 论文引入认知评价理论,将自我评估拆解为六个多维维度,通过提示工程引导模型进行更细致的自我审视。
  3. 实验证明,针对不同任务类型选择特定的评价维度(如推理任务用“努力”),能显著提升模型性能预测的准确性。

📝 摘要(中文)

大语言模型(LLM)在需要可靠自我评估的场景中应用日益广泛。模型可靠性评估已从概率正确性估计演变为通过语言表达置信度。然而,研究表明置信度作为模型正确性的预测指标,往往表现出不一致性和过度乐观倾向。本文借鉴人类心理学中的认知评价理论,将自我评估分解为多个维度,提出了一种多维自我评估框架。我们通过实验 elicitation 了六个基于评价的维度以及置信度,并在涵盖8个领域、12个LLM和38项任务的基准上评估了其预测模型失效的能力。结果发现,与能力相关的评价维度(特别是“努力”和“能力”)在多数场景下表现优于或等同于置信度。其中,“努力”维度不仅估计更客观,且在不同模型规模下保持稳定。此外,最具信息量的维度随任务特性而变:推理密集型任务中“努力”最具预测力,而检索型任务中“能力”与“置信度”占主导。该研究表明,结构化的多维自我评估是提升LLM部署可靠性与安全性的有效途径。

🔬 方法详解

问题定义:论文旨在解决大语言模型在自我评估中过度依赖单一“置信度”指标的问题。现有方法往往无法准确反映模型在复杂任务中的真实能力,导致模型在面对错误时表现出虚假的自信,限制了其在关键任务中的应用。

核心思路:借鉴人类心理学中的认知评价理论(Cognitive Appraisal Theory),将自我评估从单一维度扩展为多维评价体系。通过引导模型从不同认知视角(如努力程度、能力水平、情感状态等)审视自身输出,从而获取比单纯置信度更具区分度和鲁棒性的性能预测信号。

技术框架:研究构建了一个多维评估框架,包含六个基于评价的维度(如努力、能力、任务难度等)及传统置信度。在推理阶段,通过特定的Prompt引导模型在输出答案后,对这七个维度进行量化评分,随后利用这些评分作为特征训练分类器或回归模型,以预测模型输出的正确性。

关键创新:首次将认知评价理论系统性引入LLM自我评估领域。核心创新在于证明了自我评估的“多维性”优于“单一性”,并揭示了不同评价维度与任务类型(推理型 vs 检索型)之间的系统性关联,实现了评估维度的动态适配。

关键设计:采用了基于提示的维度诱导(Dimension Elicitation)技术,通过结构化Prompt强制模型在回答后进行多维自评。在评估指标上,重点考察了各维度在不同模型规模下的稳定性,并发现“努力”维度在跨模型规模时表现出极高的鲁棒性,有效缓解了模型规模增大带来的过度自信问题。

📊 实验亮点

实验覆盖12个LLM及38项任务,结果显示“努力”和“能力”维度在预测模型失效方面表现优异。在推理密集型任务中,“努力”维度的预测效能显著高于传统置信度;在不同模型规模下,“努力”维度表现出极强的稳定性,有效克服了模型规模扩大导致的过度乐观偏差,为模型可靠性评估提供了新的基准。

🎯 应用场景

该研究可广泛应用于医疗诊断、法律咨询、代码生成等对可靠性要求极高的领域。通过引入多维自我评估,系统可以在模型输出低置信度或低“努力”评分时,自动触发人工审核或拒绝回答,从而显著提升LLM在实际部署中的安全性与可信度。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used in settings where reliable self-assessment is critical. Assessing model reliability has evolved from using probabilistic correctness estimates to, more recently, eliciting verbalized confidence. Confidence, however, has been shown to be an inconsistent and overoptimistic predictor of model correctness. Drawing on cognitive appraisal theory, a framework from human psychology that decomposes self-evaluation into multiple components, we propose a multidimensional perspective on model self-assessment. We elicit six appraisal-based dimensions of self-assessment, alongside confidence, and evaluate their utility for predicting model failure across 12 LLMs and 38 tasks spanning eight domains. We find that competence-related appraisal dimensions, particularly effort and ability, consistently match or outperform confidence across most settings. Effort additionally yields less overoptimistic estimates that remain stable across model sizes. In contrast, affective dimensions provide marginally predictive signals. Furthermore, the most informative dimension varies systematically with task characteristics: effort is most predictive for reasoning-intensive tasks, while ability and confidence dominate on retrieval-oriented tasks. Broadly, our findings indicate that structured multidimensional self-assessment is a promising approach to improving the reliability and safety of language model deployment across diverse real-world settings.