Uncertainty-Penalized Direct Preference Optimization
作者: Sam Houliston, Alizée Pace, Alexander Immer, Gunnar Rätsch
分类: cs.LG, cs.AI, stat.ML
发布日期: 2024-10-26
备注: Accepted at the NeurIPS 2024 FITML Workshop
💡 一句话要点
提出不确定性惩罚直接偏好优化方法,提升LLM对人类偏好对齐的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 直接偏好优化 不确定性惩罚 大型语言模型 人类偏好对齐 鲁棒性 模型集成 离线强化学习
📋 核心要点
- 现有RLHF和DPO方法在对齐人类偏好时,易受代理奖励过度优化影响,导致模型利用偏好中的噪声。
- 论文提出一种基于不确定性惩罚的DPO框架,通过衰减不确定样本的损失梯度,提高模型鲁棒性。
- 实验表明,该方法在Anthropic-HH数据集上优于vanilla DPO,尤其在高不确定性样本上生成质量更高。
📝 摘要(中文)
将大型语言模型(LLM)与人类在内容、风格和呈现方式上的偏好对齐极具挑战,部分原因是偏好具有多样性、依赖于上下文,并且有时本质上是模糊的。尽管从人类反馈中进行强化学习(RLHF)和直接偏好优化(DPO)已经取得成功,但它们容易出现代理奖励过度优化的问题。对DPO损失的分析表明,为了避免奖励利用,迫切需要对错误标记或模糊的偏好对进行正则化。本文通过引入受离线强化学习启发的偏好不确定性惩罚方案,为DPO开发了一个悲观框架。该惩罚是对损失的修正,可以衰减不确定样本的损失梯度。使用模型集成来获得不确定性估计,并在Anthropic-HH数据集上使用GPT2 Medium对该方法进行了评估,结果表明,与vanilla DPO相比,总体性能有所提高,并且在高不确定性选择/拒绝响应的提示下,补全效果更好。
🔬 方法详解
问题定义:现有直接偏好优化(DPO)方法在训练大型语言模型(LLM)以对齐人类偏好时,容易受到数据集中噪声或模糊偏好的影响,导致模型过度拟合这些不确定性样本,从而降低泛化能力和生成质量。DPO损失函数对错误标记或模糊的偏好对缺乏鲁棒性,容易被“奖励利用”(reward hacking)。
核心思路:论文的核心思路是通过引入不确定性惩罚机制,对DPO损失函数进行修正,从而降低不确定性样本对模型训练的影响。具体来说,对于那些模型预测不确定性高的偏好对,降低其在损失函数中的权重,从而避免模型过度拟合这些噪声数据。这种方法类似于离线强化学习中的悲观策略,即在不确定情况下采取保守策略。
技术框架:整体框架仍然基于DPO,但引入了一个不确定性估计模块。该模块使用模型集成(ensemble)的方法来估计每个偏好对的不确定性。然后,将这个不确定性估计值用于调整DPO损失函数,具体来说,通过一个惩罚项来衰减不确定性高的样本的损失梯度。训练过程与标准DPO类似,但损失函数有所修改。
关键创新:关键创新在于将不确定性估计融入到DPO框架中,并设计了相应的损失函数惩罚项。与传统的DPO相比,该方法能够更好地处理数据集中存在的噪声和模糊偏好,从而提高模型的鲁棒性和泛化能力。这种基于不确定性的惩罚机制是该方法的核心,也是其与现有DPO方法的主要区别。
关键设计:关键设计包括:1) 使用模型集成来估计偏好对的不确定性,集成的模型数量是一个重要参数。2) 设计不确定性惩罚项的具体形式,例如,可以使用不确定性的线性或非线性函数来衰减损失梯度。3) 损失函数的修改,具体形式为:L_uncertainty_penalized_DPO = L_DPO - lambda * uncertainty,其中lambda是一个超参数,控制不确定性惩罚的强度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Anthropic-HH数据集上,该方法相比于vanilla DPO,在总体性能上有所提升。更重要的是,在高不确定性选择/拒绝响应的提示下,该方法生成的补全效果明显优于vanilla DPO,表明该方法能够有效降低不确定性样本对模型的影响,提高生成质量。具体的性能提升幅度未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种需要将大型语言模型与人类偏好对齐的场景,例如对话系统、文本生成、代码生成等。通过提高模型对噪声数据的鲁棒性,可以提升生成内容的质量和安全性,减少模型产生有害或不符合人类价值观的内容的风险。此外,该方法还可以应用于个性化推荐系统,更好地理解和满足用户的个性化需求。
📄 摘要(原文)
Aligning Large Language Models (LLMs) to human preferences in content, style, and presentation is challenging, in part because preferences are varied, context-dependent, and sometimes inherently ambiguous. While successful, Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) are prone to the issue of proxy reward overoptimization. Analysis of the DPO loss reveals a critical need for regularization for mislabeled or ambiguous preference pairs to avoid reward hacking. In this work, we develop a pessimistic framework for DPO by introducing preference uncertainty penalization schemes, inspired by offline reinforcement learning. The penalization serves as a correction to the loss which attenuates the loss gradient for uncertain samples. Evaluation of the methods is performed with GPT2 Medium on the Anthropic-HH dataset using a model ensemble to obtain uncertainty estimates, and shows improved overall performance compared to vanilla DPO, as well as better completions on prompts from high-uncertainty chosen/rejected responses.