Linear-DPO: Linear Direct Preference Optimization for Diffusion and Flow-Matching Generative Models

作者: Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan

分类: cs.CV, cs.LG

发布日期: 2026-05-20

备注: Code and models are available at: https://github.com/Whynot0101/Linear-DPO . Work done during an internship at Alibaba Group

💡 一句话要点

提出Linear-DPO，通过线性效用函数优化扩散模型和Flow-Matching生成模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 扩散模型 Flow-Matching 文本到图像生成 线性效用函数

📋 核心要点

现有DPO方法在文本到图像生成任务中存在目标不匹配问题，且忽略了Flow-Matching模型。
Linear-DPO通过线性效用函数替代sigmoid函数，并引入EMA更新的参考模型，优化DPO目标。
实验表明，Linear-DPO在扩散模型和Flow-Matching模型上均优于现有基线方法。

📝 摘要（中文）

直接偏好优化(DPO)在LLM对齐方面取得了成功，但在文本到图像生成方面仍然面临挑战。现有研究仅限于去噪扩散模型，忽略了Flow-Matching，并且在将基于离散NLP的DPO应用于基于回归的生成任务时，存在目标不匹配的问题。本文推导了一个广义的DPO目标，通过统一的逆时SDE框架覆盖了扩散和Flow-Matching，并从梯度的角度指出，标准DPO目标对于文本到图像生成来说是次优的。因此，我们提出了Linear-DPO，它用持续的线性效用函数代替了激进的基于sigmoid的效用函数，并结合了EMA更新的参考模型。在扩散模型(SD1.5, SDXL)和Flow-Matching模型(SD3-Medium)上的定性和定量实验证明了我们的方法优于现有的基线。

🔬 方法详解

问题定义：现有DPO方法在应用于文本到图像生成任务时，特别是基于回归的生成模型（如扩散模型和Flow-Matching模型）时，存在目标不匹配的问题。此外，现有研究主要集中在去噪扩散模型上，忽略了Flow-Matching模型。标准DPO目标函数采用sigmoid函数，可能导致梯度消失或不稳定，影响模型训练效果。

核心思路：Linear-DPO的核心思路是通过使用线性效用函数来替代标准DPO中使用的sigmoid函数，从而避免梯度消失或不稳定的问题。同时，引入EMA（指数移动平均）更新的参考模型，以提高训练的稳定性和生成质量。该方法旨在更有效地对齐生成模型的输出与人类偏好。

技术框架：Linear-DPO的技术框架基于广义的DPO目标，该目标通过统一的逆时SDE框架覆盖了扩散模型和Flow-Matching模型。该框架包括以下主要步骤：1) 定义一个统一的逆时SDE，用于描述扩散和Flow-Matching过程；2) 推导广义的DPO目标函数；3) 使用线性效用函数替代sigmoid函数；4) 引入EMA更新的参考模型；5) 使用优化算法（如Adam）训练模型。

关键创新：Linear-DPO的关键创新在于使用线性效用函数替代sigmoid函数。与sigmoid函数相比，线性效用函数具有更稳定的梯度，可以避免梯度消失或不稳定的问题。此外，引入EMA更新的参考模型可以提高训练的稳定性和生成质量。

关键设计：Linear-DPO的关键设计包括：1) 线性效用函数的设计：使用简单的线性函数来表示奖励，避免了sigmoid函数的饱和问题；2) EMA更新参考模型：使用EMA更新参考模型，可以平滑训练过程，提高模型的泛化能力；3) 损失函数：使用广义的DPO损失函数，该损失函数可以应用于扩散模型和Flow-Matching模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Linear-DPO在SD1.5、SDXL和SD3-Medium等模型上均优于现有基线方法。例如，在SDXL模型上，Linear-DPO在图像质量和文本对齐方面均取得了显著提升。定量指标显示，Linear-DPO能够生成更符合人类偏好的图像。

🎯 应用场景

Linear-DPO可应用于各种文本到图像生成任务，例如个性化图像生成、风格迁移、图像编辑等。该方法能够更好地对齐生成模型的输出与人类偏好，从而提高生成图像的质量和用户满意度。未来，该方法可以扩展到其他生成模型，例如视频生成和3D模型生成。

📄 摘要（原文）

Direct Preference Optimization (DPO) is successful for alignment in LLMs but still faces challenges in text-to-image generation. Existing studies are confined to denoising diffusion models while overlooking flow-matching, and suffer from an objective mismatch when applying discrete NLP-based DPO to regression-based generative tasks.\ In this paper, we derive a generalized DPO objective that covers both diffusion and flow-matching via a unified reverse-time SDE framework, and point out from a gradient perspective that the standard DPO objective is suboptimal for text-to-image generation. Consequently, we propose Linear-DPO, which replaces the aggressive sigmoid-based utility function with a sustained linear utility and incorporates an EMA-updated reference model. Qualitative and quantitative experiments on diffusion models (SD1.5, SDXL) and flow-matching model (SD3-Medium) demonstrate the superiority of our approach over existing baselines.

Linear-DPO: Linear Direct Preference Optimization for Diffusion and Flow-Matching Generative Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理