Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

📄 arXiv: 2503.20240v2 📥 PDF

作者: Prin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung

分类: cs.CV

发布日期: 2025-03-26 (更新: 2025-03-29)

备注: Project Page: https://unconditional-priors-matter.github.io/


💡 一句话要点

改进微调扩散模型的条件生成:利用高质量的无条件先验

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 条件扩散模型 Classifier-Free Guidance 无条件先验 图像生成 视频生成 微调 噪声预测

📋 核心要点

  1. 现有基于Classifier-Free Guidance (CFG) 的条件扩散模型在联合学习条件和无条件噪声时,无条件先验质量较差,限制了条件生成效果。
  2. 论文提出用高质量的无条件噪声先验替换CFG中的无条件噪声,这些高质量先验来自预训练的基础模型或其他扩散模型。
  3. 实验表明,该方法能显著提升多种基于CFG的图像和视频生成模型的条件生成质量,包括Zero-1-to-3、Versatile Diffusion等。

📝 摘要(中文)

Classifier-Free Guidance (CFG) 是训练条件扩散模型的一项基本技术。CFG训练的常见做法是使用单个网络来学习条件和无条件噪声预测,并对条件施加较小的dropout率。然而,我们观察到,在训练中以有限的带宽联合学习无条件噪声会导致较差的无条件先验。更重要的是,这些较差的无条件噪声预测成为降低条件生成质量的重要原因。受到大多数基于CFG的条件模型都是通过微调具有更好无条件生成的基础模型这一事实的启发,我们首先表明,简单地用基础模型预测的无条件噪声替换CFG中的无条件噪声可以显著改善条件生成。此外,我们表明,可以使用除微调模型训练所用的扩散模型之外的其他扩散模型进行无条件噪声替换。我们通过一系列基于CFG的图像和视频生成条件模型(包括Zero-1-to-3、Versatile Diffusion、DiT、DynamiCrafter和InstructPix2Pix)实验验证了我们的主张。

🔬 方法详解

问题定义:现有基于CFG的条件扩散模型通常使用单个网络同时学习条件和无条件噪声预测。由于训练带宽的限制,无条件噪声的预测质量不高,导致无条件先验较差。这会严重影响条件生成的效果,使得生成的图像或视频质量下降。

核心思路:论文的核心思路是利用预训练的基础模型(或其他的扩散模型)提供高质量的无条件噪声先验,替换CFG训练过程中产生的低质量无条件噪声。因为基础模型通常经过大规模数据集的训练,具有更好的无条件生成能力。

技术框架:该方法的核心在于替换CFG训练过程中的无条件噪声。具体来说,在CFG的训练和推理过程中,不再使用联合训练的网络预测的无条件噪声,而是使用预训练的基础模型(或其他的扩散模型)预测的无条件噪声。其余的训练和推理流程与标准的CFG方法保持一致。

关键创新:该方法最重要的创新点在于发现了CFG训练中无条件先验的重要性,并提出了一种简单有效的利用高质量无条件先验来提升条件生成质量的方法。与现有方法相比,该方法不需要修改网络结构或训练流程,只需要替换无条件噪声的来源即可。

关键设计:关键的设计在于如何选择合适的预训练基础模型或扩散模型来提供高质量的无条件噪声。论文中实验了多种不同的模型,并发现即使使用与微调模型训练所用的扩散模型不同的模型,也能获得显著的性能提升。此外,该方法不需要调整任何额外的参数,可以直接应用于现有的CFG训练流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用高质量的无条件先验可以显著提升多种基于CFG的条件生成模型的性能。例如,在Zero-1-to-3模型中,使用该方法可以显著提升生成图像的质量和一致性。在DynamiCrafter视频生成模型中,该方法可以生成更逼真、更流畅的视频内容。该方法在多个模型和数据集上都取得了显著的性能提升,验证了其有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种条件图像和视频生成任务中,例如文本到图像生成、图像编辑、3D场景生成等。通过提升条件生成模型的质量,可以改善用户体验,并为创意设计、内容创作等领域提供更强大的工具。该方法易于实施,具有很高的实际应用价值。

📄 摘要(原文)

Classifier-Free Guidance (CFG) is a fundamental technique in training conditional diffusion models. The common practice for CFG-based training is to use a single network to learn both conditional and unconditional noise prediction, with a small dropout rate for conditioning. However, we observe that the joint learning of unconditional noise with limited bandwidth in training results in poor priors for the unconditional case. More importantly, these poor unconditional noise predictions become a serious reason for degrading the quality of conditional generation. Inspired by the fact that most CFG-based conditional models are trained by fine-tuning a base model with better unconditional generation, we first show that simply replacing the unconditional noise in CFG with that predicted by the base model can significantly improve conditional generation. Furthermore, we show that a diffusion model other than the one the fine-tuned model was trained on can be used for unconditional noise replacement. We experimentally verify our claim with a range of CFG-based conditional models for both image and video generation, including Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, and InstructPix2Pix.