Taming Overconfidence in LLMs: Reward Calibration in RLHF
作者: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang
分类: cs.CL
发布日期: 2024-10-13 (更新: 2025-02-28)
💡 一句话要点
提出PPO-M和PPO-C,解决RLHF训练LLM中的过度自信问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人类反馈强化学习 置信度校准 近端策略优化 奖励模型 过度自信 语言模型校准
📋 核心要点
- 现有研究表明,RLHF训练的LLM存在过度自信问题,且模型倾向于在回复中表达口头上的过度自信。
- 论文提出PPO-M和PPO-C两种PPO变体,分别通过校准奖励模型训练和奖励计算来解决过度自信问题。
- 实验结果表明,提出的方法能有效降低校准误差,同时保持模型在多项选择、开放式生成和对话等任务上的性能。
📝 摘要(中文)
语言模型校准是指模型置信度与其响应的实际性能之间的一致性。先前的研究表明,大型语言模型(LLM)存在过度自信现象,并且使用人类反馈强化学习(RLHF)训练的LLM会过度自信,输出概率更加尖锐。本研究揭示了RLHF倾向于导致模型在自身响应中表达口头上的过度自信。我们调查了这种过度自信的根本原因,并证明用于近端策略优化(PPO)的奖励模型对高置信度分数表现出固有的偏见,而不管响应的实际质量如何。基于此,我们提出了两种PPO变体:PPO-M(具有校准奖励建模的PPO)和PPO-C(具有校准奖励计算的PPO)。PPO-M将显式置信度分数集成到奖励模型训练中,从而校准奖励模型,以更好地捕获响应质量和口头置信度之间的一致性。PPO-C在PPO期间根据当前奖励与过去奖励的指数平均值之间的差异来调整奖励分数。PPO-M和PPO-C都可以无缝集成到当前的PPO流程中,并且不需要额外的黄金标签。我们在Llama3-8B和Mistral-7B上,跨包括多项选择和开放式生成在内的六个不同的数据集上评估了我们的方法。实验结果表明,我们的两种方法都可以减少校准误差,并保持与标准PPO相当的性能。我们进一步表明,它们可以在开放式对话环境中保持模型能力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在使用人类反馈强化学习(RLHF)训练时出现的过度自信问题。现有方法,特别是基于近端策略优化(PPO)的RLHF,倾向于使模型在生成回复时表达过高的置信度,即使回复质量不高。这种过度自信会误导用户,降低LLM的可靠性。奖励模型对高置信度分数存在偏见,是导致该问题的重要原因。
核心思路:论文的核心思路是通过校准奖励模型和奖励计算来缓解LLM的过度自信问题。具体来说,PPO-M通过在奖励模型训练中引入显式的置信度分数,使奖励模型能够更好地衡量回复质量和置信度之间的一致性。PPO-C则通过动态调整奖励分数,使其与历史奖励的平均水平相比较,从而减少奖励模型对高置信度回复的过度奖励。
技术框架:整体框架仍然基于标准的PPO流程,主要包含以下几个阶段:1) 使用语言模型生成回复;2) 使用奖励模型评估回复的质量和置信度;3) 使用PPO算法更新语言模型的策略。PPO-M在奖励模型训练阶段引入了置信度校准机制,而PPO-C在PPO更新阶段调整了奖励计算方式。
关键创新:论文的关键创新在于提出了两种简单有效的PPO变体,无需额外的黄金标签即可校准LLM的置信度。PPO-M通过校准奖励模型,使其能够更准确地评估回复的质量和置信度,从而减少了模型在生成回复时的过度自信。PPO-C通过动态调整奖励分数,减少了奖励模型对高置信度回复的偏见。
关键设计:PPO-M的关键设计在于将显式的置信度分数纳入奖励模型训练中,具体实现方式未知(论文中未明确说明)。PPO-C的关键设计在于使用当前奖励与过去奖励的指数平均值之间的差异来调整奖励分数。具体公式未知(论文中未明确说明)。损失函数和网络结构与标准PPO保持一致。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PPO-M和PPO-C在多个数据集上均能有效降低校准误差,同时保持与标准PPO相当的性能。在开放式对话环境中,提出的方法也能保持模型的能力。具体性能提升数据未知(论文中未给出具体数值)。
🎯 应用场景
该研究成果可应用于各种需要语言模型提供可靠回复的场景,例如智能客服、问答系统、内容生成等。通过降低LLM的过度自信,可以提高用户对模型的信任度,并减少因错误信息带来的负面影响。该研究也有助于提升人机交互的质量,使LLM能够更准确地表达自身的不确定性。
📄 摘要(原文)
Language model calibration refers to the alignment between the confidence of the model and the actual performance of its responses. While previous studies point out the overconfidence phenomenon in Large Language Models (LLMs) and show that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) are overconfident with a more sharpened output probability, in this study, we reveal that RLHF tends to lead models to express verbalized overconfidence in their own responses. We investigate the underlying cause of this overconfidence and demonstrate that reward models used for Proximal Policy Optimization (PPO) exhibit inherent biases towards high-confidence scores regardless of the actual quality of responses. Building upon this insight, we propose two PPO variants: PPO-M: PPO with Calibrated Reward Modeling and PPO-C: PPO with Calibrated Reward Calculation. PPO-M integrates explicit confidence scores in reward model training, which calibrates reward models to better capture the alignment between response quality and verbalized confidence. PPO-C adjusts the reward score during PPO based on the difference between the current reward and the exponential average of past rewards. Both PPO-M and PPO-C can be seamlessly integrated into the current PPO pipeline and do not require additional golden labels. We evaluate our methods on both Llama3-8B and Mistral-7B across six diverse datasets including multiple-choice and open-ended generation. Experimental results demonstrate that both of our methods can reduce calibration error and maintain performance comparable to standard PPO. We further show that they could preserve model capabilities in open-ended conversational settings.