CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

📄 arXiv: 2603.18991v1 📥 PDF

作者: Zening Sun, Zhengpeng Xie, Lichen Bai, Shitong Shao, Shuo Yang, Zeke Xie

分类: cs.CV, cs.LG

发布日期: 2026-03-19

备注: CVPR2026


💡 一句话要点

CRAFT:一种高效对齐扩散模型的新微调方法,数据需求大幅降低

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 微调 偏好对齐 复合奖励 数据过滤

📋 核心要点

  1. 现有扩散模型对齐方法依赖大量高质量数据或大规模偏好数据集,成本高昂且效率低下。
  2. CRAFT通过复合奖励过滤(CRF)构建高质量数据集,并在此基础上进行增强的SFT微调,降低数据需求。
  3. 实验表明,CRAFT仅需少量样本即可超越现有偏好优化方法,且收敛速度提升显著。

📝 摘要(中文)

对齐扩散模型在生成高质量、符合人类偏好的图像方面取得了显著突破。监督微调(SFT)和DPO风格的偏好优化已成为微调扩散模型的重要工具。然而,SFT依赖于高质量但昂贵的图像,而DPO风格的方法依赖于大规模但质量不一致的偏好数据集。除了数据依赖性,这些方法还受到计算效率的限制。为了解决这两个挑战,我们提出了复合奖励辅助微调(CRAFT),这是一种轻量级但功能强大的微调范式,它在保持计算效率的同时显著减少了训练数据需求。它首先利用复合奖励过滤(CRF)技术构建高质量且一致的训练数据集,然后执行SFT的增强变体。我们还在理论上证明,CRAFT实际上优化了基于群体的强化学习的下界,从而在SFT与选定数据和强化学习之间建立了原则性联系。大量的实验结果表明,仅使用100个样本的CRAFT可以轻松超越最近使用数千个偏好配对样本的SOTA偏好优化方法。此外,CRAFT甚至可以实现比基线偏好优化方法快11-220倍的收敛速度,突出了其极高的效率。

🔬 方法详解

问题定义:现有扩散模型对齐方法,如监督微调(SFT)和DPO风格的偏好优化,面临数据依赖和计算效率的双重挑战。SFT需要高质量的图像数据,获取成本高昂;DPO风格的方法依赖大规模偏好数据集,但数据质量参差不齐。此外,这些方法在训练过程中计算资源消耗大,收敛速度慢,限制了其应用范围。

核心思路:CRAFT的核心思路是通过复合奖励过滤(CRF)技术,从原始数据集中筛选出高质量、一致性的数据子集,从而降低对大规模高质量数据的依赖。然后,利用筛选后的数据进行增强的监督微调(SFT),在保证模型性能的同时,显著提高训练效率。这种方法将数据选择与模型微调相结合,实现了高效的扩散模型对齐。

技术框架:CRAFT的整体框架包含两个主要阶段:复合奖励过滤(CRF)和增强的监督微调(SFT)。首先,CRF模块利用多个预训练模型(例如CLIP)对候选图像进行评估,并根据评估结果计算复合奖励得分。然后,根据奖励得分对图像进行排序和筛选,选择高质量的图像子集。接下来,利用筛选后的图像子集进行增强的SFT微调,优化扩散模型的参数,使其与人类偏好对齐。

关键创新:CRAFT的关键创新在于复合奖励过滤(CRF)技术,它能够有效地从原始数据集中筛选出高质量、一致性的数据子集。与传统的随机抽样或人工标注方法相比,CRF能够更准确地评估图像的质量和一致性,从而提高训练数据的质量。此外,CRAFT还理论证明了其优化目标实际上是基于群体的强化学习的下界,从而将SFT与强化学习联系起来。

关键设计:CRF模块的关键设计在于复合奖励的计算方式。论文中使用了多个预训练模型(例如CLIP)对候选图像进行评估,并根据评估结果计算复合奖励得分。具体来说,复合奖励得分是多个评估指标的加权平均,权重可以根据实际情况进行调整。增强的SFT微调采用标准的SFT损失函数,但使用了筛选后的高质量数据子集,从而提高了训练效率和模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRAFT在实验中表现出显著的优势。仅使用100个样本,CRAFT就能超越使用数千个偏好配对样本的SOTA偏好优化方法。此外,CRAFT的收敛速度比基线偏好优化方法快11-220倍,证明了其极高的效率。这些结果表明,CRAFT是一种高效且有效的方法,能够显著降低扩散模型对齐的成本。

🎯 应用场景

CRAFT可应用于各种图像生成任务,例如文本到图像生成、图像编辑和风格迁移。该方法能够显著降低训练数据需求和计算成本,使得扩散模型更容易在资源受限的环境中部署。此外,CRAFT还可以用于提高生成图像的质量和与人类偏好的一致性,从而改善用户体验。

📄 摘要(原文)

Aligning Diffusion models has achieved remarkable breakthroughs in generating high-quality, human preference-aligned images. Existing techniques, such as supervised fine-tuning (SFT) and DPO-style preference optimization, have become principled tools for fine-tuning diffusion models. However, SFT relies on high-quality images that are costly to obtain, while DPO-style methods depend on large-scale preference datasets, which are often inconsistent in quality. Beyond data dependency, these methods are further constrained by computational inefficiency. To address these two challenges, we propose Composite Reward Assisted Fine-Tuning (CRAFT), a lightweight yet powerful fine-tuning paradigm that requires significantly reduced training data while maintaining computational efficiency. It first leverages a Composite Reward Filtering (CRF) technique to construct a high-quality and consistent training dataset and then perform an enhanced variant of SFT. We also theoretically prove that CRAFT actually optimizes the lower bound of group-based reinforcement learning, establishing a principled connection between SFT with selected data and reinforcement learning. Our extensive empirical results demonstrate that CRAFT with only 100 samples can easily outperform recent SOTA preference optimization methods with thousands of preference-paired samples. Moreover, CRAFT can even achieve 11-220$\times$ faster convergences than the baseline preference optimization methods, highlighting its extremely high efficiency.