Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization
作者: Amir Saeidi, Shivanshu Verma, Aswin RRV, Kashif Rasul, Chitta Baral
分类: cs.CL
发布日期: 2024-05-26 (更新: 2025-02-18)
💡 一句话要点
提出三重偏好优化(TPO),通过单步优化提升LLM的推理和指令遵循能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏好学习 指令遵循 推理能力 直接偏好优化 三重偏好优化 单步优化
📋 核心要点
- 现有直接偏好优化(DPO)方法虽然提升了指令遵循能力,但损害了大型语言模型的推理能力,且对数据噪声敏感。
- 论文提出三重偏好优化(TPO),通过单步优化,同时提升LLM的推理和指令遵循能力,无需复杂的强化学习过程。
- 实验结果表明,TPO在多个基准测试中显著优于DPO及其变体,尤其在推理任务上提升明显,且所需数据量更少。
📝 摘要(中文)
基于人类反馈的强化学习(RLHF)旨在提升大型语言模型(LLM)的对齐效果。然而,其局限性促使了直接偏好优化(DPO)的出现,这是一种无RL的方法,旨在克服这些缺点。虽然研究表明DPO提高了指令遵循能力,但它对LLM的推理能力产生了负面影响。此外,DPO对偏好数据集中的判断噪声和训练集的大小高度敏感。尽管已经提出了DPO的几种修改方案,但它们仍然无法完全解决这些问题。为了解决这些限制,我们提出了一种新的偏好学习方法,即三重偏好优化(TPO),旨在通过单步优化来增强推理和指令遵循能力。我们使用最先进的训练设置(包括基础模型和指令微调模型,如Mistral和Llama 3)将TPO与DPO及其最新变体进行了比较。我们的评估涵盖了广泛的基于聊天的和推理的基准。结果表明,TPO在不同数据集大小下,相对于现有方法取得了显著的改进,而没有显着增加响应长度。具体而言,TPO在Arena-Hard上优于DPO和SimPO高达7.0%和7.3%,在MixEval-Hard上优于12.2%和13.3%,在MMLU-Pro上优于10.4%和10.1%,在GSM8K上优于19.0%和19.2%。此外,TPO实现这些改进所需的数据量少于DPO。
🔬 方法详解
问题定义:现有直接偏好优化(DPO)方法在提升大型语言模型指令遵循能力的同时,会损害其推理能力。此外,DPO对训练数据中的噪声非常敏感,且对训练数据量有较高要求。因此,如何设计一种既能提升指令遵循能力,又能保持甚至提升推理能力,同时对数据噪声不敏感,且数据需求量较小的方法,是本文要解决的问题。
核心思路:TPO的核心思路是引入“三重偏好”的概念,即同时考虑一个“好”的回复、一个“中等”的回复和一个“差”的回复,并优化模型以更好地区分这三种回复的优劣。通过这种方式,模型可以更有效地学习人类的偏好,从而在指令遵循和推理能力上都得到提升。这种设计旨在使模型学习到更细粒度的偏好信息,从而提高模型的鲁棒性和泛化能力。
技术框架:TPO的整体框架仍然基于偏好学习,但与DPO不同的是,它不是简单地比较两个回复的优劣,而是同时考虑三个回复。具体流程如下:1)收集包含三个回复(好、中、差)的偏好数据集;2)定义一个损失函数,该函数鼓励模型将“好”的回复排在“中等”和“差”的回复之前,并将“中等”的回复排在“差”的回复之前;3)使用该损失函数对模型进行单步优化。
关键创新:TPO的关键创新在于引入了“三重偏好”的概念,并设计了相应的损失函数。与DPO只考虑两个回复的优劣相比,TPO可以学习到更细粒度的偏好信息,从而提高模型的性能。此外,TPO的单步优化方法也更加高效,避免了复杂的强化学习过程。
关键设计:TPO的关键设计在于损失函数的设计。损失函数需要能够有效地区分“好”、“中等”和“差”的回复。一种可能的实现方式是使用hinge loss,鼓励模型给“好”的回复打更高的分数,给“中等”的回复打中等的分数,给“差”的回复打更低的分数。具体的参数设置需要根据具体的数据集和模型进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TPO在多个基准测试中显著优于DPO及其变体。具体而言,TPO在Arena-Hard上优于DPO和SimPO高达7.0%和7.3%,在MixEval-Hard上优于12.2%和13.3%,在MMLU-Pro上优于10.4%和10.1%,在GSM8K上优于19.0%和19.2%。此外,TPO实现这些改进所需的数据量少于DPO,表明其具有更高的效率。
🎯 应用场景
TPO方法可广泛应用于各种需要对齐人类偏好的大型语言模型应用中,例如智能助手、聊天机器人、内容生成等。通过提升模型的推理和指令遵循能力,可以提高用户满意度,并减少模型产生有害或不准确信息的风险。该方法在教育、医疗、金融等领域具有潜在的应用价值。
📄 摘要(原文)
Reinforcement Learning with Human Feedback (RLHF) enhances the alignment of Large Language Models (LLMs). However, its limitations have led to the development of Direct Preference Optimization (DPO), an RL-free approach designed to overcome these shortcomings. While studies have shown that DPO improves instruction-following capabilities, it negatively impacts the reasoning ability of LLMs. Additionally, DPO is highly sensitive to judgment noise in preference datasets and the size of the training set. Although several modifications to DPO have been proposed, they still fail to fully resolve these issues. To address these limitations, we propose Triple Preference Optimization (TPO), a new preference learning method designed to enhance both reasoning and instruction-following abilities through one-step optimization. We compare TPO against DPO and its recent variants using state-of-the-art training setups, including both base and instruction-tuned models such as Mistral and Llama 3. Our evaluation covers a comprehensive range of chat-based and reasoning benchmarks. The results demonstrate that TPO achieves significant improvements over existing methods without substantially increasing response length across different dataset sizes. Specifically, TPO outperforms DPO and SimPO by up to 7.0% and 7.3% points on Arena-Hard, 12.2% and 13.3% points on MixEval-Hard, 10.4% and 10.1% points on MMLU-Pro, and 19.0% and 19.2% points on GSM8K, respectively. Furthermore, TPO achieves these improvements while requiring less data than DPO.