Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads
作者: Avelina Asada Hadji-Kyriacou, Ognjen Arandjelovic
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-05-30
💡 一句话要点
提出Direct Preference Heads,在不影响语言模型输出分布的前提下,提升模型对人类偏好的对齐。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型微调 人类反馈强化学习 偏好学习 直接偏好优化 推理能力 幻觉 对齐
📋 核心要点
- RLHF虽然能使LM更好地对齐人类偏好,但可能损害其推理能力并引入幻觉。
- 提出Direct Preference Heads (DPH),通过辅助奖励头学习人类偏好,不直接影响LM的输出分布。
- 实验表明,DPH微调的模型在GLUE、RACE和GPT4All上优于SFT和DPO微调的模型。
📝 摘要(中文)
预训练语言模型(LMs)展现出强大的零样本和上下文学习能力,但其行为通常难以控制。通过人类反馈强化学习(RLHF),可以对无监督的LMs进行微调,使其遵循指令并产生反映人类偏好的输出。尽管RLHF有其优点,但研究表明它可能会损害语言模型的推理能力,并引入幻觉等伪造事实的现象。为了解决这个问题,我们引入了Direct Preference Heads (DPH),这是一种微调框架,使LMs能够通过辅助奖励头学习人类偏好信号,而不会直接影响语言建模头的输出分布。我们对目标函数进行了理论分析,发现其与保守直接偏好优化(cDPO)有很强的联系。最后,我们在GLUE、RACE和GPT4All评估套件上评估了我们的模型,结果表明,我们的方法产生的模型比单独使用监督微调(SFT)或直接偏好优化(DPO)微调的模型获得了更高的分数。
🔬 方法详解
问题定义:现有RLHF方法在使语言模型对齐人类偏好的同时,可能会损害模型的推理能力,并引入幻觉问题。这是因为RLHF直接影响了语言模型的输出分布,导致模型在生成文本时可能偏离其原有的知识和推理能力。
核心思路:DPH的核心思路是通过引入一个辅助的奖励头来学习人类偏好,而保持语言建模头(即原始语言模型的输出层)不变。这样,模型可以在不改变其原始输出分布的情况下,学习到人类的偏好信号,从而避免了对推理能力的损害和幻觉的引入。
技术框架:DPH框架包含两个主要部分:语言建模头和直接偏好头。语言建模头负责生成文本,其参数在微调过程中保持不变。直接偏好头是一个辅助的奖励头,用于预测给定文本的人类偏好得分。在训练过程中,DPH使用一个基于偏好数据的损失函数来更新直接偏好头的参数,而语言建模头的参数保持不变。
关键创新:DPH的关键创新在于其解耦了语言建模和偏好学习的过程。通过引入一个独立的偏好头,DPH可以在不影响语言模型输出分布的情况下,学习到人类的偏好信号。这与传统的RLHF方法不同,后者直接修改语言模型的输出分布,可能导致推理能力下降和幻觉问题。
关键设计:DPH的关键设计包括:1) 使用一个独立的直接偏好头来预测人类偏好得分;2) 使用一个基于偏好数据的损失函数来更新直接偏好头的参数;3) 在微调过程中保持语言建模头的参数不变。论文还对目标函数进行了理论分析,并发现其与保守直接偏好优化(cDPO)有很强的联系。具体损失函数和网络结构细节在论文中有详细描述。
📊 实验亮点
实验结果表明,使用DPH微调的语言模型在GLUE、RACE和GPT4All等多个基准测试中,均优于使用SFT和DPO微调的模型。这表明DPH方法可以在不损害语言模型推理能力的前提下,有效地提升模型对人类偏好的对齐程度。具体的性能提升数据在论文中有详细展示。
🎯 应用场景
DPH方法可应用于各种需要语言模型对齐人类偏好的场景,例如对话系统、文本摘要、代码生成等。通过使用DPH,可以训练出既能生成高质量文本,又能满足人类偏好的语言模型,从而提高用户体验和任务完成效率。该方法还有助于减少语言模型中的偏见和有害内容,使其更加安全和可靠。
📄 摘要(原文)
Pre-trained Language Models (LMs) exhibit strong zero-shot and in-context learning capabilities; however, their behaviors are often difficult to control. By utilizing Reinforcement Learning from Human Feedback (RLHF), it is possible to fine-tune unsupervised LMs to follow instructions and produce outputs that reflect human preferences. Despite its benefits, RLHF has been shown to potentially harm a language model's reasoning capabilities and introduce artifacts such as hallucinations where the model may fabricate facts. To address this issue we introduce Direct Preference Heads (DPH), a fine-tuning framework that enables LMs to learn human preference signals through an auxiliary reward head without directly affecting the output distribution of the language modeling head. We perform a theoretical analysis of our objective function and find strong ties to Conservative Direct Preference Optimization (cDPO). Finally we evaluate our models on GLUE, RACE, and the GPT4All evaluation suite and demonstrate that our method produces models which achieve higher scores than those fine-tuned with Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO) alone.