Calibrating Language Models with Adaptive Temperature Scaling
作者: Johnathan Xie, Annie S. Chen, Yoonho Lee, Eric Mitchell, Chelsea Finn
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-09-29
备注: EMNLP 2024
💡 一句话要点
提出自适应温度缩放(ATS)方法,提升RLHF微调后大语言模型的校准性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 校准 温度缩放 强化学习 人类反馈 自适应 后验校准 置信度
📋 核心要点
- RLHF微调虽能提升LLM性能,但会显著降低模型的校准性,即置信度与准确率不匹配。
- ATS方法通过预测每个token的温度缩放参数,自适应地校准模型输出,缓解RLHF带来的校准偏移。
- 实验表明,ATS在多个NLP基准测试中,校准性能提升10-50%,且不影响RLHF带来的性能增益。
📝 摘要(中文)
大型语言模型(LLM)的有效性不仅取决于其生成准确输出的能力,还取决于其校准程度——即其置信度分数与输出正确的概率的匹配程度。虽然无监督预训练已被证明可以产生具有良好校准条件概率的LLM,但最近的研究表明,在使用人类反馈的强化学习(RLHF)进行微调后,这些模型的校准会显著降低。本文介绍了一种后验校准方法,即自适应温度缩放(ATS),它为每个token预测预测一个温度缩放参数。预测的温度值基于token级别的特征进行调整,并在标准监督微调(SFT)数据集上进行拟合。ATS的自适应性解决了RLHF微调后可能发生的各种程度的校准偏移。与之前的校准方法相比,ATS在三个下游自然语言评估基准上将校准提高了10-50%以上,并且不会阻碍RLHF带来的性能提升。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在经过人类反馈强化学习(RLHF)微调后,校准性能显著下降的问题。现有方法,如传统的温度缩放,无法有效应对RLHF引入的token级别校准偏移,导致模型置信度与实际准确率不匹配。
核心思路:核心思路是引入自适应温度缩放(ATS),为每个token预测一个独立的温度缩放参数。该参数基于token级别的特征进行动态调整,从而更精细地校准模型的输出概率分布,使其置信度与准确率更加一致。
技术框架:ATS是一种后验校准方法,无需修改原始LLM的结构或训练过程。其主要流程包括:1) 使用标准监督微调(SFT)数据集;2) 提取token级别的特征(例如,token embedding,上下文信息等);3) 训练一个小型神经网络,根据token特征预测温度缩放参数;4) 在推理阶段,将预测的温度应用于LLM的输出概率分布,进行校准。
关键创新:ATS的关键创新在于其自适应性。传统的温度缩放方法使用单个全局温度值,无法捕捉不同token之间的校准差异。ATS通过预测token级别的温度,能够更精细地调整模型输出,从而更有效地解决RLHF带来的校准偏移。
关键设计:ATS的关键设计包括:1) 使用小型神经网络(例如,多层感知机)预测温度参数;2) 使用SFT数据集训练该网络,目标是最小化校准误差(例如,Expected Calibration Error, ECE);3) 可以选择不同的token特征作为输入,例如,token embedding,上下文信息,模型输出概率等。温度预测网络的具体结构和训练细节需要根据具体任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ATS在三个下游自然语言评估基准上,相比于之前的校准方法,校准性能提升了10-50%以上。更重要的是,ATS在提升校准性能的同时,并没有影响RLHF带来的性能增益,证明了其有效性和实用性。具体的性能指标包括ECE(Expected Calibration Error)等。
🎯 应用场景
该研究成果可广泛应用于需要高可靠性和可信度的大语言模型应用场景,例如医疗诊断、金融风控、法律咨询等。通过提升模型的校准性能,可以提高用户对模型预测结果的信任度,并降低因错误预测带来的风险。未来,该方法可以进一步扩展到其他类型的模型和任务中。
📄 摘要(原文)
The effectiveness of large language models (LLMs) is not only measured by their ability to generate accurate outputs but also by their calibration-how well their confidence scores reflect the probability of their outputs being correct. While unsupervised pre-training has been shown to yield LLMs with well-calibrated conditional probabilities, recent studies have shown that after fine-tuning with reinforcement learning from human feedback (RLHF), the calibration of these models degrades significantly. In this work, we introduce Adaptive Temperature Scaling (ATS), a post-hoc calibration method that predicts a temperature scaling parameter for each token prediction. The predicted temperature values adapt based on token-level features and are fit over a standard supervised fine-tuning (SFT) dataset. The adaptive nature of ATS addresses the varying degrees of calibration shift that can occur after RLHF fine-tuning. ATS improves calibration by over 10-50% across three downstream natural language evaluation benchmarks compared to prior calibration methods and does not impede performance improvements from RLHF.