Length Desensitization in Direct Preference Optimization
作者: Wei Liu, Yang Bai, Chengcheng Han, Rongxiang Weng, Jun Xu, Xuezhi Cao, Jingang Wang, Xunliang Cai
分类: cs.LG, cs.CL
发布日期: 2024-09-10 (更新: 2024-11-28)
备注: 21 pages, 9 figures
💡 一句话要点
提出LD-DPO,解决DPO训练中大语言模型对文本长度的过度优化问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 直接偏好优化 长度不敏感 大型语言模型 人类反馈强化学习 文本生成
📋 核心要点
- DPO在对齐LLM与人类偏好时表现出过度优化文本长度的倾向,损害性能和用户体验。
- LD-DPO通过解耦显式长度偏好,使DPO对数据长度不敏感,从而更有效地学习内在偏好。
- 实验表明,LD-DPO在多个基准测试中优于DPO,并能生成更简洁的响应,长度减少10-40%。
📝 摘要(中文)
直接偏好优化(DPO)广泛应用于从人类反馈中强化学习(RLHF)阶段,以使大型语言模型(LLMs)与人类偏好对齐,从而提高其无害性和有效性。然而,DPO倾向于过度优化冗长性,这可能会对性能和用户体验产生不利影响。本文对DPO的优化目标进行了深入的理论分析,揭示了其隐式奖励与数据长度之间存在很强的相关性。这种相关性误导了优化方向,导致DPO训练期间的长度敏感性,并导致冗长。为了解决这个问题,我们提出了一种针对DPO的长度不敏感改进方法,称为LD-DPO。该方法旨在通过将显式的长度偏好(相对不重要)与其他的隐式偏好分离,从而使DPO对数据长度不敏感,从而更有效地学习内在偏好。我们使用Llama2-13B、Llama3-8B和Qwen2-7B的两种设置(Base和Instruct)在包括MT-Bench和AlpacaEval 2在内的各种基准上进行了实验验证。实验结果表明,LD-DPO始终优于DPO和其他基线方法,实现了更简洁的响应,与DPO相比,长度减少了10-40%。我们进行了深入的实验分析,以证明LD-DPO确实可以实现长度不敏感,并使模型更接近人类的偏好。
🔬 方法详解
问题定义:DPO在训练大型语言模型时,存在过度优化生成文本长度的问题,导致模型倾向于生成冗长、不简洁的回复。这种长度偏好并非用户真正想要的,反而会降低模型的实用性和用户体验。现有方法难以有效区分长度偏好和其他内在偏好,导致模型学习到错误的优化方向。
核心思路:LD-DPO的核心思想是将DPO的优化目标进行解耦,区分显式的长度偏好和隐式的其他偏好。通过降低模型对文本长度的敏感性,使模型能够更专注于学习用户真正期望的内在偏好,从而生成更符合人类偏好且简洁的回复。
技术框架:LD-DPO沿用了DPO的整体框架,主要改进在于优化目标的修改。具体来说,LD-DPO在DPO的损失函数中引入了一个额外的项,用于显式地控制模型对文本长度的偏好。这个项的设计使得模型在优化过程中可以区分长度带来的奖励和其他因素带来的奖励,从而降低对长度的过度依赖。
关键创新:LD-DPO的关键创新在于对DPO优化目标的解耦。通过显式地建模长度偏好,LD-DPO能够将长度的影响从其他内在偏好中分离出来,从而避免模型学习到错误的优化方向。与DPO相比,LD-DPO能够更准确地学习用户真正期望的偏好,生成更符合人类偏好且简洁的回复。
关键设计:LD-DPO的关键设计在于损失函数的修改。具体来说,假设原始DPO的损失函数为L_DPO,LD-DPO的损失函数可以表示为L_LD-DPO = L_DPO + λ * L_length,其中L_length是用于显式控制长度偏好的损失项,λ是一个超参数,用于控制长度偏好项的权重。L_length的具体形式可以根据实际情况进行选择,例如可以使用文本长度的负值作为奖励,或者使用一个基于长度的惩罚项。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LD-DPO在Llama2-13B、Llama3-8B和Qwen2-7B等多个模型上,以及MT-Bench和AlpacaEval 2等多个基准测试中,均优于DPO和其他基线方法。与DPO相比,LD-DPO能够生成长度减少10-40%的回复,同时保持或提高模型的性能。这些结果表明,LD-DPO能够有效降低模型对文本长度的敏感性,并更准确地学习人类偏好。
🎯 应用场景
LD-DPO可广泛应用于各种需要使用大型语言模型的场景,例如智能客服、文本生成、对话系统等。通过降低模型对文本长度的过度优化,LD-DPO可以提高模型的实用性和用户体验,使其能够生成更简洁、更符合人类偏好的回复。该方法有助于提升LLM在实际应用中的表现,并减少不必要的计算资源消耗。
📄 摘要(原文)
Direct Preference Optimization (DPO) is widely utilized in the Reinforcement Learning from Human Feedback (RLHF) phase to align Large Language Models (LLMs) with human preferences, thereby enhancing both their harmlessness and efficacy. However, it has been observed that DPO tends to over-optimize for verbosity, which can detrimentally affect both performance and user experience. In this paper, we conduct an in-depth theoretical analysis of DPO's optimization objective and reveal a strong correlation between its implicit reward and data length. This correlation misguides the optimization direction, resulting in length sensitivity during the DPO training and leading to verbosity. To address this issue, we propose a length-desensitization improvement method for DPO, termed LD-DPO. The proposed method aims to desensitize DPO to data length by decoupling explicit length preference, which is relatively insignificant, from the other implicit preferences, thereby enabling more effective learning of the intrinsic preferences. We utilized two settings (Base and Instruct) of Llama2-13B, Llama3-8B, and Qwen2-7B for experimental validation on various benchmarks including MT-Bench and AlpacaEval 2. The experimental results indicate that LD-DPO consistently outperforms DPO and other baseline methods, achieving more concise responses with a 10-40% reduction in length compared to DPO. We conducted in-depth experimental analyses to demonstrate that LD-DPO can indeed achieve length desensitization and align the model more closely with human-like preferences.