LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models
作者: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
分类: cs.CL, cs.AI
发布日期: 2024-05-31 (更新: 2024-07-03)
备注: 18 pages. Code: https://github.com/esteng/pragmatic_calibration
💡 一句话要点
LACIE:面向大语言模型置信度校准的、考虑听众的微调方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 置信度校准 微调 听众建模 偏好优化
📋 核心要点
- 现有大语言模型普遍存在过度自信问题,其表达的置信度与其真实准确性不匹配,影响了作为知识来源的可信度。
- LACIE方法通过模拟听众的接受程度,将置信度校准转化为偏好优化问题,从而微调模型,使其更好地适应听众的期望。
- 实验表明,LACIE微调后的模型在模拟和真实人类听众中都表现出更好的校准效果,并能提升模型在TruthfulQA数据集上的真实性。
📝 摘要(中文)
大语言模型(LLM)在回答问题时,不仅能给出答案,还能表达对答案正确性的置信度。这包括显式的置信度标记(例如,给出数值评分)以及隐式的标记,如权威的语气或用额外的知识进行阐述。为了使LLM成为值得信赖的知识来源,它们所传达的置信度应该与其真实的专业知识相匹配;然而,目前大多数模型都倾向于过度自信。为了校准隐式和显式的置信度标记,我们引入了一种实用的、考虑听众的微调方法(LACIE),该方法对听众进行建模,不仅考虑答案是否正确,还考虑答案是否会被听众接受。我们将校准视为偏好优化,通过一个双智能体博弈来创建数据,其中说话者模型的输出由一个模拟的听众来判断。然后,我们使用LACIE对三个LLM(Mistral-7B、Llama3-8B、Llama3-70B)进行微调,并表明由此产生的模型在模拟听众方面得到了更好的校准。至关重要的是,这些趋势可以转移到人类听众身上,帮助他们正确预测模型的正确性:我们进行了一项人类评估,其中注释者接受或拒绝LLM的答案,发现使用LACIE进行训练可以减少47%的错误答案被接受,同时保持正确答案的相同接受水平。此外,LACIE推广到另一个数据集,在TriviaQA上训练时,TruthfulQA的真实性大大提高。我们的分析表明,LACIE可以更好地分离正确和错误示例的置信度。从定性上讲,我们发现经过LACIE训练的模型会更加谨慎,并在正确时通过使用权威的语气或包含细节来隐式地发出确定信号。最后,LACIE微调导致模型对可能错误的答案的新兴放弃(例如,说“我不知道”)。
🔬 方法详解
问题定义:现有的大语言模型在生成答案时,往往存在过度自信的问题,即模型给出的置信度评分与其答案的实际正确率不符。这种不一致性会降低用户对模型的信任度,尤其是在需要模型提供可靠信息的场景下。现有方法通常只关注提高模型的准确率,而忽略了置信度校准的重要性。
核心思路:LACIE的核心思路是模拟听众对答案的接受程度,从而引导模型学习更符合人类认知的置信度表达。具体来说,LACIE将置信度校准问题建模为一个偏好优化问题,通过训练模型来预测听众是否会接受给定的答案。这种方法不仅考虑了答案的正确性,还考虑了答案的表达方式和听众的先验知识。
技术框架:LACIE的技术框架主要包含以下几个模块:1) 双智能体博弈:构建一个说话者(Speaker)和一个听众(Listener)模型。说话者模型生成答案,听众模型判断答案是否可接受。2) 偏好数据生成:通过双智能体博弈生成偏好数据,即对于同一个问题,听众模型更倾向于接受哪个说话者模型生成的答案。3) 模型微调:使用偏好数据对说话者模型进行微调,使其生成的答案更符合听众的期望,从而实现置信度校准。
关键创新:LACIE最重要的技术创新在于引入了听众模型,将置信度校准问题转化为一个更贴近人类认知的偏好优化问题。与传统的置信度校准方法相比,LACIE不仅关注答案的正确性,还关注答案的表达方式和听众的先验知识,从而能够更好地校准模型的置信度。
关键设计:LACIE的关键设计包括:1) 听众模型的选择:可以使用预训练的大语言模型作为听众模型,也可以训练一个专门的听众模型。2) 偏好数据的生成方式:可以通过不同的策略来生成偏好数据,例如,可以使用强化学习来训练说话者模型,使其生成的答案更符合听众的期望。3) 损失函数的设计:可以使用不同的损失函数来优化说话者模型,例如,可以使用pairwise ranking loss来鼓励模型生成更符合听众期望的答案。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用LACIE微调后的模型在模拟听众和真实人类听众中都表现出更好的校准效果。具体来说,在人类评估中,LACIE训练的模型减少了47%的错误答案被接受,同时保持了正确答案的相同接受水平。此外,LACIE在TruthfulQA数据集上取得了显著的真实性提升,表明该方法具有良好的泛化能力。
🎯 应用场景
LACIE方法可应用于各种需要大语言模型提供可靠信息的场景,例如智能客服、医疗诊断、金融分析等。通过提高模型的置信度校准水平,可以增强用户对模型的信任度,并减少因模型过度自信而导致的错误决策。未来,该方法有望进一步扩展到其他类型的任务和模型,并与其他置信度校准技术相结合,以实现更好的效果。
📄 摘要(原文)
When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.