CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?
作者: Qing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song
分类: cs.CL
发布日期: 2025-10-28
💡 一句话要点
CritiCal:利用自然语言评判提升大语言模型的不确定性与置信度校准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 置信度校准 自然语言评判 不确定性估计 自我评判
📋 核心要点
- 现有LLM置信度校准方法依赖模仿参考表达,缺乏深层推理,难以保证高风险场景下的安全应用。
- 提出CritiCal框架,利用自然语言评判作为信号,指导LLM进行置信度校准,无需精确的黄金标签。
- 实验表明,CritiCal显著优于现有方法,并在复杂推理和分布外泛化方面表现出优越性能,提升LLM可靠性。
📝 摘要(中文)
大语言模型(LLM)中准确的置信度校准对于高风险领域的安全使用至关重要,清晰的置信度表达可以增强用户信任。传统方法模仿参考置信度表达,但通常无法捕捉准确置信度评估所需的推理能力。本文提出使用自然语言评判作为解决方案,特别适用于置信度校准,因为精确的黄金置信度标签难以获得,且通常需要多次生成。本文研究了自然语言评判如何增强置信度表达,并探讨了评判内容的选择(关注不确定性或置信度)和评判方式(自我评判或评判校准训练)。分析表明,置信度适合多项选择任务,而不确定性擅长开放式场景。我们提出了Self-Critique,使LLM能够评判和优化其置信度,超越单纯的准确性。此外,我们还提出了CritiCal,一种新颖的评判校准训练方法,利用自然语言评判来改进置信度校准,超越了直接数值优化。实验表明,CritiCal显著优于Self-Critique和其他有竞争力的基线,甚至在复杂的推理任务中超越了其教师模型GPT-4o。CritiCal还在分布外设置中表现出强大的泛化能力,提高了LLM的可靠性。
🔬 方法详解
问题定义:现有大语言模型在置信度校准方面存在不足。它们通常依赖于模仿预定义的置信度表达,而缺乏对答案质量的深层推理和评估。这导致模型在面对复杂或不熟悉的问题时,无法准确地表达其置信度,从而影响了其在高风险场景中的应用。此外,获取精确的置信度标签成本高昂,限制了监督学习方法的应用。
核心思路:本文的核心思路是利用自然语言评判(critique)作为一种弱监督信号,来指导大语言模型进行置信度校准。通过让模型对自身的答案或推理过程进行评判,可以促使其更深入地思考答案的合理性,从而更准确地评估其置信度。这种方法避免了对精确置信度标签的依赖,降低了标注成本。
技术框架:CritiCal框架包含以下主要阶段:1) 生成阶段:LLM生成答案和初始置信度。2) 评判阶段:LLM根据问题或答案生成自然语言评判。根据任务类型,评判可以关注答案的置信度或问题的不确定性。3) 校准阶段:CritiCal利用评判信息来调整LLM的置信度。该阶段使用一种新颖的评判校准训练方法,该方法超越了直接数值优化,而是通过学习如何根据评判信息来调整置信度表达,从而提高校准的准确性。
关键创新:CritiCal的关键创新在于其利用自然语言评判作为置信度校准的信号。与传统的直接数值优化方法不同,CritiCal通过学习如何根据评判信息来调整置信度表达,从而更有效地利用了评判信息。此外,CritiCal还提出了Self-Critique方法,允许LLM对自身的答案进行评判,从而进一步提高了校准的准确性。
关键设计:CritiCal的关键设计包括:1) 评判内容的选择:根据任务类型选择关注置信度或不确定性。2) 评判校准训练方法:该方法使用一个额外的神经网络来学习如何根据评判信息来调整置信度。损失函数的设计旨在鼓励模型生成更准确的置信度表达,并惩罚不准确的表达。3) Self-Critique的实现:通过让LLM对自身的答案进行评判,并利用评判信息来调整置信度,从而进一步提高校准的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CritiCal在多个基准测试中显著优于现有方法,包括直接数值优化和Self-Critique。在复杂的推理任务中,CritiCal甚至超越了其教师模型GPT-4o。此外,CritiCal还在分布外设置中表现出强大的泛化能力,证明了其鲁棒性和可靠性。例如,在某些任务上,CritiCal的性能提升超过10%。
🎯 应用场景
该研究成果可应用于需要高度可靠性和准确性的领域,例如医疗诊断、金融风险评估、法律咨询等。通过提高LLM的置信度校准能力,可以增强用户对模型的信任,并降低因不准确预测而造成的风险。未来,该方法可以扩展到其他任务和模型,进一步提高LLM的可靠性和实用性。
📄 摘要(原文)
Accurate confidence calibration in Large Language Models (LLMs) is critical for safe use in high-stakes domains, where clear verbalized confidence enhances user trust. Traditional methods that mimic reference confidence expressions often fail to capture the reasoning needed for accurate confidence assessment. We propose natural language critiques as a solution, ideally suited for confidence calibration, as precise gold confidence labels are hard to obtain and often require multiple generations. This paper studies how natural language critiques can enhance verbalized confidence, addressing: (1) What to critique: uncertainty (question-focused) or confidence (answer-specific)? Analysis shows confidence suits multiple-choice tasks, while uncertainty excels in open-ended scenarios. (2) How to critique: self-critique or critique calibration training? We propose Self-Critique, enabling LLMs to critique and optimize their confidence beyond mere accuracy, and CritiCal, a novel Critique Calibration training method that leverages natural language critiques to improve confidence calibration, moving beyond direct numerical optimization. Experiments show that CritiCal significantly outperforms Self-Critique and other competitive baselines, even surpassing its teacher model, GPT-4o, in complex reasoning tasks. CritiCal also shows robust generalization in out-of-distribution settings, advancing LLM's reliability.