Geometric-Averaged Preference Optimization for Soft Preference Labels
作者: Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-09-10 (更新: 2024-12-30)
备注: Accepted at NeurIPS 2024
💡 一句话要点
提出几何平均偏好优化算法,利用软偏好标签提升LLM对齐效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大型语言模型对齐 偏好优化 软偏好标签 直接偏好优化 几何平均 AI反馈 人类偏好
📋 核心要点
- 现有LLM对齐方法假设人类偏好是二元且确定的,忽略了人类偏好的分布特性和个体差异。
- 论文提出使用软偏好标签,并改进DPO算法,通过加权几何平均调整损失函数,缓解过度优化和目标不匹配问题。
- 实验结果表明,该方法在标准对齐基准上表现更优,尤其在适度置信标签占多数时提升显著。
📝 摘要(中文)
许多将大型语言模型(LLM)与人类偏好对齐的算法都假设人类偏好是二元的和确定性的。然而,人类偏好因人而异,因此应该以分布式的形式表示。本文引入了分布式的软偏好标签,并通过在损失函数中使用LLM输出似然的加权几何平均来改进直接偏好优化(DPO)。这种方法根据软标签调整学习损失的尺度,使得当响应更接近于同等偏好时,损失将接近于零。这种简单的修改可以很容易地应用于任何基于DPO的方法,并减轻过度优化和目标不匹配的问题,而先前的工作受到这些问题的困扰。我们的实验模拟了来自LLM的AI反馈的软偏好标签,并表明几何平均一致地提高了对齐研究的标准基准的性能。特别是,我们观察到比二元标签更优选的响应,以及在适度置信标签占多数的情况下显著的改进。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)对齐方法通常假设人类的偏好是二元的,即对于两个给定的回复,人类会明确地选择一个更优的。然而,现实中人类的偏好往往是模糊的,存在个体差异,并且可能对两个回复都有一定的偏好程度。这种二元偏好假设忽略了人类偏好的分布特性,导致模型训练时可能出现过度优化和目标不匹配的问题。
核心思路:论文的核心思路是引入“软偏好标签”,用一个概率分布来表示人类对不同回复的偏好程度,而不是简单的二元选择。然后,通过调整DPO(Direct Preference Optimization)算法的损失函数,利用LLM输出似然的加权几何平均来优化模型。这种方法的核心在于,当两个回复的偏好程度接近时,损失函数会相应减小,从而避免模型过度拟合某个特定的偏好。
技术框架:该方法基于DPO框架,主要修改在于损失函数的设计。DPO算法通常使用一个对比损失来优化模型,该损失基于两个回复的似然比。论文提出的方法修改了这个损失函数,使用一个加权几何平均来调整损失的尺度。具体来说,损失函数中的权重是基于软偏好标签计算的,当两个回复的偏好程度接近时,权重会减小,从而降低损失。
关键创新:该方法最重要的创新点在于引入了软偏好标签,并将其融入到DPO算法的损失函数中。与传统的二元偏好标签相比,软偏好标签能够更准确地反映人类的真实偏好,从而提高模型的对齐效果。此外,使用几何平均来调整损失函数也能够有效地缓解过度优化和目标不匹配的问题。
关键设计:关键设计在于损失函数的修改。假设有两个回复,分别表示为(x_1)和(x_2),对应的软偏好标签为(p_1)和(p_2),其中(p_1 + p_2 = 1)。DPO损失函数被修改为:(L = - \log(\frac{\exp(\beta \log p(x_1|q))}{\exp(\beta \log p(x_1|q)) + \exp(\beta \log p(x_2|q))})),其中(q)是prompt,(p(x|q))是模型生成的回复(x)的概率,(\beta)是温度参数。通过这种方式,损失函数会根据软偏好标签进行调整,从而更好地优化模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用几何平均偏好优化算法后,模型在标准对齐基准上取得了显著的性能提升。与使用二元标签的DPO算法相比,该方法能够生成更符合人类偏好的回复,尤其是在适度置信标签占多数的情况下,提升效果更为明显。具体性能数据未知,但论文强调该方法在多个基准测试中均表现出一致的改进。
🎯 应用场景
该研究成果可广泛应用于各种需要与人类偏好对齐的大型语言模型应用场景,例如对话系统、文本生成、代码生成等。通过更准确地捕捉和利用人类的偏好信息,可以显著提升LLM生成内容的质量和用户满意度,并减少模型产生有害或不当内容的风险。未来,该方法可以进一步扩展到更复杂的偏好表示和学习场景中。
📄 摘要(原文)
Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, human preferences can vary across individuals, and therefore should be represented distributionally. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. This approach adjusts the scale of learning loss based on the soft labels such that the loss would approach zero when the responses are closer to equally preferred. This simple modification can be easily applied to any DPO-based methods and mitigate over-optimization and objective mismatch, which prior works suffer from. Our experiments simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements where modestly-confident labels are in the majority.