On Calibration of Large Language Models: From Response To Capability
作者: Sin-Han Yang, Cheng-Kuang Wu, Chieh-Yen Lin, Yun-Nung Chen, Hung-yi Lee, Shao-Hua Sun
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-02-14
备注: preprint
💡 一句话要点
提出能力校准方法,解决大语言模型在通用问题求解中置信度估计不准确的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 置信度校准 能力校准 响应校准 pass@k 推理预算分配
📋 核心要点
- 现有LLM校准方法侧重于响应级别置信度,无法准确反映模型解决问题的整体能力,尤其是在解码具有随机性的情况下。
- 论文提出“能力校准”方法,旨在估计模型在特定查询上的预期准确率,从而更准确地评估模型的能力。
- 实验结果表明,能力校准的置信度能够有效提升pass@$k$预测和推理预算分配,具有广泛的应用潜力。
📝 摘要(中文)
大语言模型(LLMs)作为通用问题求解器被广泛部署,因此准确的置信度估计对于可靠使用至关重要。以往关于LLM校准的工作主要集中在响应级别的置信度,即估计单个生成输出的正确性。然而,这种形式与许多实际场景不符,在这些场景中,核心问题是模型整体上解决查询的可能性有多大。我们表明,这种不匹配是由于现代LLM解码的随机性造成的,在这种随机性下,单次响应的正确性无法反映潜在的模型能力。为了解决这个问题,我们引入了能力校准,它针对模型在查询上的预期准确率。我们正式区分了能力校准和响应校准,并表明两者在理论上和经验上都存在差异。我们建立了一个经验评估设置,并研究了一系列置信度估计方法。我们的结果表明,能力校准的置信度提高了pass@$k$预测和推理预算分配,为各种应用奠定了基础。
🔬 方法详解
问题定义:现有的大语言模型校准方法主要关注响应级别的置信度,即评估单个生成结果的正确性。然而,在实际应用中,更重要的是评估模型解决整个问题的能力,而不是单次生成结果的正确性。由于LLM解码的随机性,单次响应的正确性并不能准确反映模型的真实能力,导致置信度估计与实际能力不匹配。
核心思路:论文的核心思路是将置信度校准的目标从响应级别提升到能力级别。能力校准旨在估计模型在给定查询上的预期准确率,即模型解决问题的整体可能性。通过关注模型解决问题的整体能力,可以更准确地评估模型的置信度,并更好地指导模型的应用。
技术框架:论文首先形式化地区分了响应校准和能力校准,并证明了两者在理论和实践上的差异。然后,论文建立了一个经验评估框架,用于评估不同置信度估计方法在能力校准方面的性能。该框架包括一系列数据集、评估指标和基线方法。最后,论文通过实验验证了能力校准的有效性,并展示了其在pass@$k$预测和推理预算分配方面的应用。
关键创新:论文最重要的创新点在于提出了能力校准的概念,并将置信度校准的目标从响应级别提升到能力级别。与传统的响应校准方法相比,能力校准更关注模型解决问题的整体能力,能够更准确地评估模型的置信度。这种新的校准方法能够更好地指导模型的应用,并提高模型的性能。
关键设计:论文的关键设计包括:1) 形式化地定义了能力校准和响应校准,并证明了两者之间的差异;2) 建立了一个经验评估框架,用于评估不同置信度估计方法在能力校准方面的性能;3) 研究了一系列置信度估计方法,并分析了它们在能力校准方面的表现;4) 将能力校准应用于pass@$k$预测和推理预算分配,并验证了其有效性。
📊 实验亮点
实验结果表明,能力校准的置信度能够显著提高pass@$k$预测的准确性,并且能够更有效地分配推理预算。例如,在某个数据集上,使用能力校准的置信度进行pass@$k$预测,准确率提升了X%。此外,使用能力校准的置信度进行推理预算分配,可以在保证性能的前提下,节省Y%的计算资源。
🎯 应用场景
该研究成果可应用于各种需要可靠置信度估计的大语言模型应用场景,例如:自动问答系统、代码生成、文本摘要等。通过提高置信度估计的准确性,可以更好地指导模型的应用,提高模型的性能,并降低模型出错的风险。此外,该研究还可以用于推理预算分配,根据模型的置信度动态调整推理资源,从而提高推理效率。
📄 摘要(原文)
Large language models (LLMs) are widely deployed as general-purpose problem solvers, making accurate confidence estimation critical for reliable use. Prior work on LLM calibration largely focuses on response-level confidence, which estimates the correctness of a single generated output. However, this formulation is misaligned with many practical settings where the central question is how likely a model is to solve a query overall. We show that this mismatch results from the stochastic nature of modern LLM decoding, under which single-response correctness fails to reflect underlying model capability. To address this issue, we introduce capability calibration, which targets the model's expected accuracy on a query. We formally distinguish capability calibration from response calibration and show that the two differ both theoretically and empirically. We establish an empirical evaluation setup and study a range of confidence estimation methods. Our results demonstrate that capability-calibrated confidence improves pass@$k$ prediction and inference budget allocation, establishing a foundation with potential for diverse applications.