GrACE: A Generative Approach to Better Confidence Elicitation in Large Language Models

作者: Zhaohan Zhang, Ziquan Liu, Ioannis Patras

分类: cs.CL

发布日期: 2025-09-11

备注: 20 pages, 11 figures

💡 一句话要点

GrACE：一种生成式方法，提升大语言模型置信度评估的可靠性与可扩展性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度评估 AI安全 生成式方法 模型校准

📋 核心要点

现有大语言模型置信度评估方法存在计算开销大和校准效果差的问题，限制了其在高风险场景的应用。
GrACE通过比较模型隐藏状态与特殊token嵌入的相似度来评估置信度，无需额外采样或辅助模型。
实验表明，GrACE在开放式生成任务中优于现有方法，并能有效减少测试时所需的样本数量。

📝 摘要（中文）

本文提出了一种名为GrACE的生成式方法，旨在为大语言模型（LLMs）提供可扩展且可靠的置信度评估，从而提升AI在高风险应用（如医疗和金融）中的安全性。现有方法要么计算开销巨大，要么校准效果不佳，使其在实际部署中不切实际且不可靠。GrACE采用了一种新颖的机制，模型通过最后一个隐藏状态与词汇表中附加的特殊token的嵌入之间的相似性来实时表达置信度。通过微调模型，利用与准确率相关的校准目标来校准置信度。在三个LLM和两个基准数据集上的实验表明，GrACE产生的置信度在开放式生成任务中实现了最佳的区分能力和校准效果，优于六种竞争方法，且无需额外的采样或辅助模型。此外，我们提出了两种基于GrACE置信度来改进测试时缩放的策略。实验结果表明，使用GrACE不仅提高了最终决策的准确性，还显著减少了测试时缩放方案中所需的样本数量，表明GrACE有潜力成为一种实用的解决方案，用于部署具有可扩展、可靠和实时置信度估计的LLM。

🔬 方法详解

问题定义：现有大语言模型在置信度评估方面面临挑战。传统方法，如基于采样的技术，计算成本高昂，难以扩展到大型模型和复杂任务。而其他方法则校准效果不佳，导致置信度估计与实际准确率不匹配，影响了模型在安全攸关场景中的可靠性。因此，需要一种既高效又准确的置信度评估方法。

核心思路：GrACE的核心思路是利用模型自身的隐藏状态来生成置信度估计，避免了额外的计算开销。具体来说，它通过比较模型最后一个隐藏状态与一个特殊token的嵌入之间的相似度来表示置信度。这种方法假设模型在生成高质量答案时，其隐藏状态会更接近代表“高置信度”的特殊token的嵌入。

技术框架：GrACE的技术框架主要包括以下几个步骤：1) 在LLM的词汇表中添加一个特殊的置信度token。2) 在微调阶段，使用校准目标（即准确率）来训练模型，使其学会将高置信度的答案与该token的嵌入关联起来。3) 在推理阶段，计算模型最后一个隐藏状态与该token嵌入之间的相似度，作为置信度得分。4) 利用该置信度得分进行测试时缩放，以提高最终决策的准确性。

关键创新：GrACE的关键创新在于其置信度评估机制。与现有方法不同，GrACE直接利用模型自身的表示空间来生成置信度估计，无需额外的采样或辅助模型。这种方法不仅降低了计算成本，还提高了置信度估计的准确性和可靠性。此外，GrACE还提出了一种基于置信度的测试时缩放策略，进一步提升了模型的性能。

关键设计：GrACE的关键设计包括：1) 特殊置信度token的选择和嵌入初始化。2) 微调阶段的校准目标设计，例如使用交叉熵损失函数来最小化预测置信度与实际准确率之间的差异。3) 相似度度量方法的选择，例如使用余弦相似度来衡量隐藏状态与token嵌入之间的相似程度。4) 测试时缩放策略的具体实现，例如根据置信度得分对多个候选答案进行加权平均。

📊 实验亮点

实验结果表明，GrACE在开放式生成任务中显著优于六种竞争方法，实现了最佳的区分能力和校准效果。例如，在某些数据集上，GrACE的校准误差降低了20%以上。此外，GrACE还能够显著减少测试时缩放所需的样本数量，降低了计算成本，使其更适用于实际部署。

🎯 应用场景

GrACE的潜在应用领域广泛，包括医疗诊断、金融风险评估、自动驾驶等高风险场景。通过提供可靠的置信度估计，GrACE可以帮助用户更好地理解和信任LLM的决策，从而提高决策的准确性和安全性。未来，GrACE可以进一步扩展到其他类型的AI模型和任务，并与其他AI安全技术相结合，共同构建更安全、可靠的人工智能系统。

📄 摘要（原文）

Assessing the reliability of Large Language Models (LLMs) by confidence elicitation is a prominent approach to AI safety in high-stakes applications, such as healthcare and finance. Existing methods either require expensive computational overhead or suffer from poor calibration, making them impractical and unreliable for real-world deployment. In this work, we propose GrACE, a Generative Approach to Confidence Elicitation that enables scalable and reliable confidence elicitation for LLMs. GrACE adopts a novel mechanism in which the model expresses confidence by the similarity between the last hidden state and the embedding of a special token appended to the vocabulary, in real-time. We fine-tune the model for calibrating the confidence with calibration targets associated with accuracy. Experiments with three LLMs and two benchmark datasets show that the confidence produced by GrACE achieves the best discriminative capacity and calibration on open-ended generation tasks, outperforming six competing methods without resorting to additional sampling or an auxiliary model. Moreover, we propose two strategies for improving test-time scaling based on confidence induced by GrACE. Experimental results show that using GrACE not only improves the accuracy of the final decision but also significantly reduces the number of required samples in the test-time scaling scheme, indicating the potential of GrACE as a practical solution for deploying LLMs with scalable, reliable, and real-time confidence estimation.

GrACE: A Generative Approach to Better Confidence Elicitation in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册