Linear-DPO: Linear Direct Preference Optimization for Diffusion and Flow-Matching Generative Models
作者: Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan
分类: cs.CV, cs.LG
发布日期: 2026-05-20
备注: Code and models are available at: https://github.com/Whynot0101/Linear-DPO . Work done during an internship at Alibaba Group
💡 一句话要点
提出Linear-DPO,通过线性效用函数优化扩散模型和Flow-Matching生成模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 直接偏好优化 扩散模型 Flow-Matching 文本到图像生成 线性效用函数
📋 核心要点
- 现有DPO方法在文本到图像生成任务中存在目标不匹配问题,且忽略了Flow-Matching模型。
- Linear-DPO通过线性效用函数替代sigmoid函数,并引入EMA更新的参考模型,优化DPO目标。
- 实验表明,Linear-DPO在扩散模型和Flow-Matching模型上均优于现有基线方法。
📝 摘要(中文)
直接偏好优化(DPO)在LLM对齐方面取得了成功,但在文本到图像生成方面仍然面临挑战。现有研究仅限于去噪扩散模型,忽略了Flow-Matching,并且在将基于离散NLP的DPO应用于基于回归的生成任务时,存在目标不匹配的问题。本文推导了一个广义的DPO目标,通过统一的逆时SDE框架覆盖了扩散和Flow-Matching,并从梯度的角度指出,标准DPO目标对于文本到图像生成来说是次优的。因此,我们提出了Linear-DPO,它用持续的线性效用函数代替了激进的基于sigmoid的效用函数,并结合了EMA更新的参考模型。在扩散模型(SD1.5, SDXL)和Flow-Matching模型(SD3-Medium)上的定性和定量实验证明了我们的方法优于现有的基线。
🔬 方法详解
问题定义:现有DPO方法在应用于文本到图像生成任务时,特别是基于回归的生成模型(如扩散模型和Flow-Matching模型)时,存在目标不匹配的问题。此外,现有研究主要集中在去噪扩散模型上,忽略了Flow-Matching模型。标准DPO目标函数采用sigmoid函数,可能导致梯度消失或不稳定,影响模型训练效果。
核心思路:Linear-DPO的核心思路是通过使用线性效用函数来替代标准DPO中使用的sigmoid函数,从而避免梯度消失或不稳定的问题。同时,引入EMA(指数移动平均)更新的参考模型,以提高训练的稳定性和生成质量。该方法旨在更有效地对齐生成模型的输出与人类偏好。
技术框架:Linear-DPO的技术框架基于广义的DPO目标,该目标通过统一的逆时SDE框架覆盖了扩散模型和Flow-Matching模型。该框架包括以下主要步骤:1) 定义一个统一的逆时SDE,用于描述扩散和Flow-Matching过程;2) 推导广义的DPO目标函数;3) 使用线性效用函数替代sigmoid函数;4) 引入EMA更新的参考模型;5) 使用优化算法(如Adam)训练模型。
关键创新:Linear-DPO的关键创新在于使用线性效用函数替代sigmoid函数。与sigmoid函数相比,线性效用函数具有更稳定的梯度,可以避免梯度消失或不稳定的问题。此外,引入EMA更新的参考模型可以提高训练的稳定性和生成质量。
关键设计:Linear-DPO的关键设计包括:1) 线性效用函数的设计:使用简单的线性函数来表示奖励,避免了sigmoid函数的饱和问题;2) EMA更新参考模型:使用EMA更新参考模型,可以平滑训练过程,提高模型的泛化能力;3) 损失函数:使用广义的DPO损失函数,该损失函数可以应用于扩散模型和Flow-Matching模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Linear-DPO在SD1.5、SDXL和SD3-Medium等模型上均优于现有基线方法。例如,在SDXL模型上,Linear-DPO在图像质量和文本对齐方面均取得了显著提升。定量指标显示,Linear-DPO能够生成更符合人类偏好的图像。
🎯 应用场景
Linear-DPO可应用于各种文本到图像生成任务,例如个性化图像生成、风格迁移、图像编辑等。该方法能够更好地对齐生成模型的输出与人类偏好,从而提高生成图像的质量和用户满意度。未来,该方法可以扩展到其他生成模型,例如视频生成和3D模型生成。
📄 摘要(原文)
Direct Preference Optimization (DPO) is successful for alignment in LLMs but still faces challenges in text-to-image generation. Existing studies are confined to denoising diffusion models while overlooking flow-matching, and suffer from an objective mismatch when applying discrete NLP-based DPO to regression-based generative tasks.\ In this paper, we derive a generalized DPO objective that covers both diffusion and flow-matching via a unified reverse-time SDE framework, and point out from a gradient perspective that the standard DPO objective is suboptimal for text-to-image generation. Consequently, we propose Linear-DPO, which replaces the aggressive sigmoid-based utility function with a sustained linear utility and incorporates an EMA-updated reference model. Qualitative and quantitative experiments on diffusion models (SD1.5, SDXL) and flow-matching model (SD3-Medium) demonstrate the superiority of our approach over existing baselines.