Post-Hoc Guidance for Consistency Models by Joint Flow Distribution Learning
作者: Chia-Hong Hsu, Randall Balestriero
分类: cs.LG, cs.CV
发布日期: 2026-04-10
💡 一句话要点
提出JFDL,无需DM教师即可对预训练一致性模型进行后验引导
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 一致性模型 后验引导 联合流分布学习 无分类器引导 图像生成
📋 核心要点
- 扩散模型采样成本高昂,而一致性模型虽然采样快,但现有引导方法依赖于从扩散模型教师处蒸馏知识,限制了其应用。
- 论文提出联合流分布学习(JFDL),通过对齐无条件和条件分布的速度场,实现对预训练一致性模型的后验引导。
- 实验表明,JFDL能够为一致性模型提供可调节的引导,在CIFAR-10和ImageNet 64x64数据集上降低了FID,且无需扩散模型教师。
📝 摘要(中文)
无分类器引导(CFG)允许从业者在扩散模型(DM)中权衡保真度和多样性。然而,CFG的实用性受到DM采样成本的限制。另一方面,一致性模型(CM)只需一步或几步即可生成图像,但现有的引导方法需要从单独的DM教师处进行知识提炼,从而将CFG限制为一致性蒸馏(CD)方法。我们提出了联合流分布学习(JFDL),这是一种轻量级的对齐方法,可以在预训练的CM中实现引导。通过将预训练的CM视为常微分方程(ODE)求解器,我们通过正态性测试验证了来自无条件和条件分布的速度场隐含的方差爆炸噪声是高斯分布。在实践中,JFDL为CM配备了熟悉的、可调节的引导旋钮,从而产生与CFG具有相似特征的引导图像。应用于只能进行条件采样的原始一致性训练(CT) CM,JFDL解锁了引导生成,并降低了CIFAR-10和ImageNet 64x64数据集上的FID。这是CM首次能够在没有DM教师的情况下接受有效的后验引导,从而弥合了当前CM方法中的一个关键差距。
🔬 方法详解
问题定义:一致性模型虽然具有快速采样的优点,但缺乏有效的引导方法。现有的引导方法通常需要从预先训练好的扩散模型中进行知识蒸馏,这增加了训练成本,并且限制了引导的灵活性。因此,如何在不依赖扩散模型教师的情况下,为一致性模型提供有效的引导是一个关键问题。
核心思路:论文的核心思路是利用联合流分布学习(JFDL)来对齐无条件和条件分布的速度场。通过假设这些速度场隐含的方差爆炸噪声是高斯分布,可以学习一个轻量级的映射,将无条件分布的速度场转换为条件分布的速度场。这样,就可以在一致性模型中实现类似于无分类器引导(CFG)的效果,从而在生成图像时权衡保真度和多样性。
技术框架:JFDL方法主要包含以下几个步骤:1) 使用预训练的一致性模型作为常微分方程(ODE)求解器。2) 提取无条件和条件分布的速度场。3) 通过正态性测试验证速度场隐含的方差爆炸噪声是否为高斯分布。4) 使用JFDL学习一个映射,将无条件分布的速度场转换为条件分布的速度场。5) 在采样过程中,使用学习到的映射来引导一致性模型的生成过程。
关键创新:该方法最重要的创新点在于,它首次实现了在没有扩散模型教师的情况下,对预训练的一致性模型进行后验引导。这打破了传统一致性模型引导方法对扩散模型教师的依赖,降低了训练成本,并提高了引导的灵活性。此外,通过验证速度场隐含的方差爆炸噪声是高斯分布,为JFDL的有效性提供了理论依据。
关键设计:JFDL的关键设计包括:1) 使用正态性测试来验证速度场隐含的噪声分布。2) 设计合适的损失函数来学习无条件和条件分布速度场之间的映射。3) 在采样过程中,通过调整引导系数来控制生成图像的保真度和多样性。具体的损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,JFDL能够有效地为一致性模型提供引导,在CIFAR-10和ImageNet 64x64数据集上降低了FID。具体来说,对于原始只能进行条件采样的一致性训练(CT) CM,应用JFDL后,解锁了引导生成能力,显著提升了图像质量。该方法无需依赖扩散模型教师,降低了训练成本,并提高了引导的灵活性。
🎯 应用场景
该研究成果可广泛应用于图像生成、图像编辑、图像修复等领域。通过为一致性模型提供有效的引导,可以生成更高质量、更符合用户需求的图像。此外,该方法还可以应用于其他生成模型,例如GANs等,以提高其生成能力和可控性。未来,该方法有望在艺术创作、游戏开发、虚拟现实等领域发挥重要作用。
📄 摘要(原文)
Classifier-free Guidance (CFG) lets practitioners trade-off fidelity against diversity in Diffusion Models (DMs). The practicality of CFG is however hindered by DMs sampling cost. On the other hand, Consistency Models (CMs) generate images in one or a few steps, but existing guidance methods require knowledge distillation from a separate DM teacher, limiting CFG to Consistency Distillation (CD) methods. We propose Joint Flow Distribution Learning (JFDL), a lightweight alignment method enabling guidance in a pre-trained CM. With a pre-trained CM as an ordinary differential equation (ODE) solver, we verify with normality tests that the variance-exploding noise implied by the velocity fields from unconditional and conditional distributions is Gaussian. In practice, JFDL equips CMs with the familiar adjustable guidance knob, yielding guided images with similar characteristics to CFG. Applied to an original Consistency Trained (CT) CM that could only do conditional sampling, JFDL unlocks guided generation and reduces FID on both CIFAR-10 and ImageNet 64x64 datasets. This is the first time that CMs are able to receive effective guidance post-hoc without a DM teacher, thus, bridging a key gap in current methods for CMs.