SDPO: Importance-Sampled Direct Preference Optimization for Stable Diffusion Training

📄 arXiv: 2505.21893v2 📥 PDF

作者: Xiaomeng Yang, Zhiyu Tan, Junyan Wang, Zhijian Zhou, Hao Li

分类: cs.LG, cs.AI

发布日期: 2025-05-28 (更新: 2025-09-25)

备注: This version contains a critical error in the main theorem and proof design that affects the validity of the results


💡 一句话要点

提出SDPO以解决扩散模型训练中的偏差与不稳定问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 偏好学习 重要性采样 生成模型 训练稳定性 优化算法 人类偏好对齐

📋 核心要点

  1. 现有的Diffusion-DPO方法在训练过程中面临时间步依赖的不稳定性和偏差问题,影响了生成模型的性能。
  2. 本文提出DPO-C&M和SDPO两种方法,前者通过剪切和屏蔽无信息时间步来提高稳定性,后者则引入重要性采样以修正偏差。
  3. 实验结果显示,SDPO在CogVideoX和Wan2.1数据集上表现优异,提升了VBench分数和人类偏好对齐度,增强了训练的鲁棒性。

📝 摘要(中文)

偏好学习已成为将生成模型与人类期望对齐的核心技术。最近,该技术通过直接偏好优化(DPO)扩展到扩散模型。然而,现有方法如Diffusion-DPO面临两个主要挑战:时间步依赖的不稳定性和来自优化与数据收集策略不匹配的偏差。本文首先分析了反向扩散轨迹,发现不稳定性主要发生在重要性权重较低的早期时间步。为了解决这些问题,提出了DPO-C&M策略,通过剪切和屏蔽无信息时间步来提高稳定性,并部分缓解偏差。在此基础上,提出了SDPO(重要性采样直接偏好优化),该框架通过引入重要性采样来完全修正偏差,并强调扩散过程中的信息更新。实验结果表明,SDPO在多个基准上超越了标准Diffusion-DPO,显示出时间步感知和分布校正优化的重要性。

🔬 方法详解

问题定义:本文旨在解决扩散模型训练中的时间步依赖不稳定性和优化与数据收集策略不匹配导致的偏差问题。现有方法如Diffusion-DPO在早期时间步表现不佳,影响了生成效果。

核心思路:提出DPO-C&M策略,通过剪切和屏蔽无信息时间步来提高训练稳定性,并引入SDPO框架,通过重要性采样修正偏差,强调信息更新。

技术框架:SDPO框架包括两个主要模块:DPO-C&M用于稳定性提升,SDPO用于偏差修正。整体流程为:分析反向扩散轨迹,识别低重要性时间步,应用重要性采样优化目标。

关键创新:SDPO的核心创新在于引入重要性采样,全面修正了优化过程中的偏差,与现有方法相比,能够更有效地利用信息更新,提升生成质量。

关键设计:在损失函数中加入重要性权重,确保在训练过程中优先考虑信息丰富的时间步。同时,设计了适应性剪切和屏蔽机制,以提高模型的稳定性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SDPO在CogVideoX-2B和Wan2.1-1.3B数据集上相较于标准Diffusion-DPO取得了显著提升,VBench分数提高了XX%,人类偏好对齐度显著增强,验证了时间步感知优化的重要性。

🎯 应用场景

该研究的潜在应用领域包括生成对抗网络、图像生成、视频生成等多个方向。通过提高扩散模型的训练稳定性和生成质量,SDPO可以在艺术创作、虚拟现实和游戏开发等领域发挥重要作用,推动生成模型的实际应用和发展。

📄 摘要(原文)

Preference learning has become a central technique for aligning generative models with human expectations. Recently, it has been extended to diffusion models through methods like Direct Preference Optimization (DPO). However, existing approaches such as Diffusion-DPO suffer from two key challenges: timestep-dependent instability, caused by a mismatch between the reverse and forward diffusion processes and by high gradient variance in early noisy timesteps, and off-policy bias arising from the mismatch between optimization and data collection policies. We begin by analyzing the reverse diffusion trajectory and observe that instability primarily occurs at early timesteps with low importance weights. To address these issues, we first propose DPO-C\&M, a practical strategy that improves stability by clipping and masking uninformative timesteps while partially mitigating off-policy bias. Building on this, we introduce SDPO (Importance-Sampled Direct Preference Optimization), a principled framework that incorporates importance sampling into the objective to fully correct for off-policy bias and emphasize informative updates during the diffusion process. Experiments on CogVideoX-2B, CogVideoX-5B, and Wan2.1-1.3B demonstrate that both methods outperform standard Diffusion-DPO, with SDPO achieving superior VBench scores, human preference alignment, and training robustness. These results highlight the importance of timestep-aware, distribution-corrected optimization in diffusion-based preference learning.