Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization
作者: Daoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao, Xiaoman Pan, Hongming Zhang, Mingxiao Li, Pengcheng Chen, Yu Dong, Christopher Brinton, Jiebo Luo
分类: cs.CV, cs.LG
发布日期: 2024-10-07 (更新: 2025-07-01)
💡 一句话要点
提出自采样偏好优化SSPO,提升扩散模型对齐效果,兼顾SFT稳定性和RL泛化性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 模型对齐 偏好优化 自采样 监督微调 强化学习 文本到图像 文本到视频
📋 核心要点
- 现有扩散模型对齐方法,如SFT泛化性弱,RL则依赖额外数据和奖励模型,易产生reward exploitation。
- SSPO通过随机检查点回放RCR构建配对数据,缓解过拟合,并用自采样正则化SSR动态评估样本质量。
- 实验表明,SSPO在文本到图像和文本到视频任务上均超越现有方法,验证了其有效性。
📝 摘要(中文)
现有的后训练技术主要分为监督微调(SFT)和强化学习(RL)方法。SFT在训练过程中稳定,但泛化能力有限;RL具有更强的泛化能力,但依赖额外的偏好数据或奖励模型,并存在奖励利用的风险。为了兼顾SFT和RL的优点,即消除对配对数据和奖励模型的需求,同时保留SFT的训练稳定性和RL的泛化能力,本文提出了一种新的对齐方法——自采样偏好优化(SSPO)。SSPO引入了一种随机检查点回放(RCR)策略,利用历史检查点来构建配对数据,从而有效缓解过拟合。同时,采用自采样正则化(SSR)策略来动态评估生成样本的质量;当生成的样本更可能是获胜样本时,该方法自动从DPO(直接偏好优化)切换到SFT,确保训练过程准确反映样本的质量。实验结果表明,SSPO不仅在文本到图像的基准测试中优于现有方法,而且其有效性也在文本到视频的任务中得到了验证。
🔬 方法详解
问题定义:扩散模型对齐旨在使模型生成的结果更符合人类偏好。现有方法,如监督微调(SFT),虽然训练稳定,但泛化能力不足;而强化学习(RL)方法,如DPO,虽然泛化能力更强,但需要额外的偏好数据或奖励模型,并且容易出现奖励利用(reward exploitation)的问题,即模型过度优化奖励函数,导致生成结果质量下降。
核心思路:SSPO的核心思路是结合SFT的稳定性和RL的泛化性,同时避免对额外偏好数据和奖励模型的依赖。它通过自采样的方式构建偏好数据,并动态调整训练策略,在DPO和SFT之间切换,从而实现更好的对齐效果。
技术框架:SSPO的整体框架包括以下几个主要步骤:1) 使用随机检查点回放(RCR)策略,从历史检查点中采样模型,生成不同的样本;2) 使用自采样正则化(SSR)策略,评估生成样本的质量,并确定“获胜”样本和“失败”样本;3) 根据样本质量,动态调整训练策略,当“获胜”样本的概率较高时,切换到SFT,否则使用DPO进行训练。
关键创新:SSPO的关键创新在于:1) 提出了随机检查点回放(RCR)策略,利用历史检查点构建配对数据,避免了对额外偏好数据的依赖,并缓解了过拟合;2) 提出了自采样正则化(SSR)策略,动态评估生成样本的质量,并根据样本质量自适应地调整训练策略,实现了DPO和SFT的有效结合。
关键设计:RCR策略的关键在于选择合适的历史检查点采样策略。SSR策略的关键在于设计合适的样本质量评估指标,例如,可以使用模型自身的预测概率作为评估指标。此外,SSPO还需要设计一个合适的切换策略,用于在DPO和SFT之间进行切换。一种可能的切换策略是,当“获胜”样本的概率高于某个阈值时,切换到SFT,否则使用DPO。
🖼️ 关键图片
📊 实验亮点
SSPO在文本到图像和文本到视频的基准测试中均取得了显著的性能提升。在文本到图像任务中,SSPO超越了所有先前的对齐方法。在文本到视频任务中,SSPO也表现出卓越的性能,验证了其在不同模态生成任务中的有效性和泛化能力。
🎯 应用场景
SSPO可广泛应用于各种生成模型的对齐任务,例如文本到图像生成、文本到视频生成等。通过提升生成结果与人类偏好的一致性,SSPO可以提高生成模型的可用性和用户体验,在艺术创作、内容生成、虚拟现实等领域具有重要的应用价值和潜力。
📄 摘要(原文)
Existing post-training techniques are broadly categorized into supervised fine-tuning (SFT) and reinforcement learning (RL) methods; the former is stable during training but suffers from limited generalization, while the latter, despite its stronger generalization capability, relies on additional preference data or reward models and carries the risk of reward exploitation. In order to preserve the advantages of both SFT and RL -- namely, eliminating the need for paired data and reward models while retaining the training stability of SFT and the generalization ability of RL -- a new alignment method, Self-Sampling Preference Optimization (SSPO), is proposed in this paper. SSPO introduces a Random Checkpoint Replay (RCR) strategy that utilizes historical checkpoints to construct paired data, thereby effectively mitigating overfitting. Simultaneously, a Self-Sampling Regularization (SSR) strategy is employed to dynamically evaluate the quality of generated samples; when the generated samples are more likely to be winning samples, the approach automatically switches from DPO (Direct Preference Optimization) to SFT, ensuring that the training process accurately reflects the quality of the samples. Experimental results demonstrate that SSPO not only outperforms existing methods on text-to-image benchmarks, but its effectiveness has also been validated in text-to-video tasks. We validate SSPO across both text-to-image and text-to-video benchmarks. SSPO surpasses all previous approaches on the text-to-image benchmarks and demonstrates outstanding performance on the text-to-video benchmarks.