Large Language Models Must Be Taught to Know What They Don't Know
作者: Sanyam Kapoor, Nate Gruver, Manley Roberts, Katherine Collins, Arka Pal, Umang Bhatt, Adrian Weller, Samuel Dooley, Micah Goldblum, Andrew Gordon Wilson
分类: cs.LG, cs.AI, cs.CL, stat.ML
发布日期: 2024-06-12 (更新: 2025-08-17)
备注: NeurIPS 2024 Camera Ready
💡 一句话要点
通过微调使大语言模型具备认知自身未知的能力,提升高风险场景应用可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 不确定性估计 微调 LoRA 校准 人机协作 高风险应用 置信度
📋 核心要点
- 现有方法难以使大语言模型产生校准良好的不确定性估计,尤其是在高风险应用中,提示工程和昂贵的采样方法存在局限性。
- 论文提出通过在少量正确和错误答案数据集上微调LLM,使其能够更好地估计自身预测的不确定性,从而提高可靠性。
- 实验证明,仅需少量样本(约1000个)的微调即可显著优于基线方法,并且该方法具有良好的泛化能力和较低的计算开销。
📝 摘要(中文)
在大语言模型(LLM)应用于高风险场景时,我们需要知道何时可以信任它们的预测。一些研究认为,仅通过提示高性能LLM就足以产生校准良好的不确定性,而另一些研究则引入了计算成本过高的采样方法。本文首先指出,仅靠提示不足以实现良好的校准。然后,证明在少量正确和错误答案的数据集上进行微调,可以创建一个具有良好泛化能力和较小计算开销的不确定性估计。研究表明,一千个带评分的例子足以胜过基线方法,并且通过模型的特征进行训练对于良好的性能是必要的,当使用LoRA时,对于大型开源模型是可行的。此外,还研究了使LLM能够进行可靠的不确定性估计的机制,发现许多模型可以用作通用不确定性估计器,不仅适用于它们自身的不确定性,也适用于其他模型的不确定性。最后,通过用户研究表明,不确定性估计可以在人机协作环境中指导人类使用LLM。
🔬 方法详解
问题定义:现有大语言模型在应用于高风险场景时,缺乏可靠的不确定性估计能力。简单地依赖提示工程或复杂的采样方法,无法有效判断模型预测的置信度,导致在关键决策时难以信任模型。现有方法要么校准性不足,要么计算成本过高,难以实际应用。
核心思路:论文的核心思路是通过微调的方式,让大语言模型学习区分正确和错误的答案,从而具备认知自身未知的能力。通过在少量标注数据上进行训练,模型可以学习到与不确定性相关的特征表示,从而更准确地估计预测的置信度。这种方法旨在提高模型预测的校准性,同时保持较低的计算开销。
技术框架:该方法主要包含以下几个阶段:1) 数据准备:构建包含正确和错误答案的少量数据集,用于微调LLM。2) 模型微调:使用LoRA等参数高效微调方法,在预训练的LLM上进行微调,使其学习不确定性估计。3) 不确定性估计:利用微调后的模型,对新的输入进行预测,并输出相应的不确定性估计。4) 评估与分析:评估不确定性估计的准确性和泛化能力,并分析其在人机协作中的作用。
关键创新:该方法的关键创新在于,通过微调的方式,赋予大语言模型认知自身未知的能力,使其能够更准确地估计预测的不确定性。与传统的提示工程和采样方法相比,该方法具有更高的效率和更好的泛化能力。此外,该研究还发现,许多模型可以作为通用不确定性估计器,不仅适用于自身,也适用于其他模型。
关键设计:论文的关键设计包括:1) 使用LoRA进行参数高效微调,降低计算成本。2) 构建包含正确和错误答案的标注数据集,用于训练模型的不确定性估计能力。3) 探索不同的损失函数和训练策略,以提高不确定性估计的准确性。4) 进行用户研究,评估不确定性估计在人机协作中的实际效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅使用1000个带评分的例子进行微调,即可显著优于基线方法。通过模型的特征进行训练对于良好的性能至关重要,并且在使用LoRA时,对于大型开源模型是可行的。此外,研究还发现,许多模型可以作为通用不确定性估计器,不仅适用于自身,也适用于其他模型。用户研究表明,不确定性估计可以有效指导人类用户使用LLM。
🎯 应用场景
该研究成果可广泛应用于医疗诊断、金融风控、自动驾驶等高风险领域。通过提供可靠的不确定性估计,可以帮助人类用户更好地理解和信任LLM的预测,从而做出更明智的决策。此外,该方法还可以用于提高LLM在开放域问答、知识图谱推理等任务中的可靠性,并促进人机协作的智能化发展。
📄 摘要(原文)
When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.