On Verbalized Confidence Scores for LLMs
作者: Daniel Yang, Yao-Hung Hubert Tsai, Makoto Yamada
分类: cs.CL
发布日期: 2024-12-19
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种提示工程方法,使LLM能够输出校准良好的置信度评分,用于不确定性量化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 不确定性量化 置信度评分 提示工程 模型校准
📋 核心要点
- 现有LLM不确定性量化方法依赖内部logits或外部模型,成本较高且缺乏通用性。
- 论文提出让LLM直接输出置信度评分,作为其输出的一部分,实现prompt和模型无关的不确定性量化。
- 实验表明,通过特定的prompt工程,可以使LLM输出校准良好的置信度评分,提升不确定性量化的可靠性。
📝 摘要(中文)
大型语言模型(LLM)日益普及并深入日常生活,因此对其可信赖性的研究至关重要。LLM的不确定性量化不仅能增强用户对其响应的信任,还能使LLM智能体基于彼此的不确定性做出更明智的决策。目前,估计响应不确定性的方法通常使用内部token logits、特定任务的代理模型或多次采样。本文着重于让LLM自身将其不确定性表达为置信度评分,作为输出token的一部分。这是一种有前景的、与提示和模型无关的不确定性量化方法,且开销较低。通过广泛的基准测试,我们评估了verbalized置信度评分在不同数据集、模型和提示方法下的可靠性。结果表明,这些评分的可靠性很大程度上取决于提问方式,但通过某些提示方法,可以提取校准良好的置信度评分。我们认为,verbalized置信度评分未来可能成为一种简单但有效且通用的不确定性量化方法。代码已开源。
🔬 方法详解
问题定义:当前LLM的不确定性量化方法,例如基于token logits、代理模型或多次采样,存在计算开销大、依赖模型内部信息或特定任务、以及泛化能力不足的问题。这些方法难以在各种prompt和模型之间保持一致的性能,限制了LLM在实际应用中的可靠性。
核心思路:论文的核心思路是利用LLM自身的生成能力,通过精心设计的prompt,让LLM在生成答案的同时,也生成一个表示其置信度的评分。这种方法无需额外的模型或计算,直接从LLM的输出中提取不确定性信息,具有prompt和模型无关的潜力。
技术框架:该方法的核心在于prompt的设计。研究者设计了多种prompt模板,要求LLM在回答问题的同时,以特定的格式(例如,0-100的数字)输出其对答案的置信度。然后,通过实验评估不同prompt模板下,LLM输出的置信度评分与实际准确率之间的校准程度。整体流程包括:1. 选择数据集和LLM;2. 设计不同的prompt模板,包含要求LLM输出置信度评分的指令;3. 使用不同的prompt模板,让LLM回答数据集中的问题;4. 评估LLM输出的置信度评分的校准程度,例如使用Expected Calibration Error (ECE)等指标。
关键创新:该方法最重要的创新点在于,它将不确定性量化问题转化为一个prompt工程问题,充分利用了LLM自身的生成能力,避免了对模型内部信息或外部资源的依赖。这种方法具有简单、通用、低开销的优点,有望成为一种广泛适用的LLM不确定性量化方法。
关键设计:关键设计在于prompt模板的设计。不同的prompt模板对LLM输出的置信度评分的校准程度有显著影响。研究者尝试了多种prompt模板,例如,明确要求LLM输出“置信度评分”,或者使用更自然的语言表达方式,例如“我有多确定”。此外,研究者还探索了不同的置信度评分格式,例如0-100的数字、0-1的小数、或者文本描述(例如,“非常确定”、“不太确定”)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,verbalized置信度评分的可靠性高度依赖于prompt的设计。某些精心设计的prompt可以使LLM输出校准良好的置信度评分,显著提升不确定性量化的效果。例如,在某些数据集上,使用特定的prompt,LLM输出的置信度评分与实际准确率之间的相关性可以达到较高水平,ECE指标也显著降低。
🎯 应用场景
该研究成果可应用于各种需要LLM提供可靠答案的场景,例如智能客服、医疗诊断辅助、金融风险评估等。通过量化LLM的不确定性,可以帮助用户更好地理解LLM的局限性,并做出更明智的决策。此外,该方法还可以用于构建更鲁棒的LLM智能体,使其能够根据自身的不确定性调整行为,例如,当置信度较低时,主动寻求人类专家的帮助。
📄 摘要(原文)
The rise of large language models (LLMs) and their tight integration into our daily life make it essential to dedicate efforts towards their trustworthiness. Uncertainty quantification for LLMs can establish more human trust into their responses, but also allows LLM agents to make more informed decisions based on each other's uncertainty. To estimate the uncertainty in a response, internal token logits, task-specific proxy models, or sampling of multiple responses are commonly used. This work focuses on asking the LLM itself to verbalize its uncertainty with a confidence score as part of its output tokens, which is a promising way for prompt- and model-agnostic uncertainty quantification with low overhead. Using an extensive benchmark, we assess the reliability of verbalized confidence scores with respect to different datasets, models, and prompt methods. Our results reveal that the reliability of these scores strongly depends on how the model is asked, but also that it is possible to extract well-calibrated confidence scores with certain prompt methods. We argue that verbalized confidence scores can become a simple but effective and versatile uncertainty quantification method in the future. Our code is available at https://github.com/danielyxyang/llm-verbalized-uq .