VarDiU: A Variational Diffusive Upper Bound for One-Step Diffusion Distillation
作者: Leyang Wang, Mingtian Zhang, Zijing Ou, David Barber
分类: cs.LG
发布日期: 2025-08-28
备注: Leyang Wang and Mingtian Zhang contributed equally to this work
💡 一句话要点
提出VarDiU:一种变分扩散上界,用于单步扩散蒸馏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 扩散蒸馏 单步生成 变分推断 无偏梯度
📋 核心要点
- 现有扩散蒸馏方法依赖于去噪score匹配(DSM)学习score函数,但DSM训练不完善导致梯度估计有偏差。
- VarDiU提出了一种变分扩散上界,允许无偏梯度估计,从而避免了DSM带来的偏差问题。
- 实验表明,VarDiU相比Diff-Instruct,能够实现更高的生成质量,并提供更高效稳定的单步扩散蒸馏训练。
📝 摘要(中文)
近年来,扩散蒸馏方法已将千步教师扩散模型压缩为单步学生生成器,同时保持了样本质量。现有方法大多使用扩散散度训练学生模型,该散度的梯度通过学生的score函数近似,并通过去噪score匹配(DSM)学习。由于DSM训练是不完善的,因此产生的梯度估计不可避免地存在偏差,导致次优性能。在本文中,我们提出了VarDiU(发音为/va:rdju:/),一种变分扩散上界,它允许无偏梯度估计器,可以直接应用于扩散蒸馏。使用此目标,我们将我们的方法与Diff-Instruct进行比较,并证明它实现了更高的生成质量,并为单步扩散蒸馏实现了更有效和稳定的训练过程。
🔬 方法详解
问题定义:论文旨在解决单步扩散蒸馏中,由于使用去噪score匹配(DSM)训练score函数而导致的梯度估计偏差问题。现有的扩散蒸馏方法依赖于DSM来学习学生的score函数,进而近似扩散散度的梯度。然而,DSM训练本身存在误差,这使得梯度估计存在偏差,最终影响蒸馏效果。
核心思路:论文的核心思路是提出一种变分扩散上界(Variational Diffusive Upper Bound, VarDiU),该上界允许无偏梯度估计。通过优化这个上界,可以避免DSM带来的偏差,从而更有效地训练单步扩散模型。本质上,VarDiU提供了一个更好的训练目标,使得学生模型能够更准确地模仿教师模型的行为。
技术框架:VarDiU方法主要包含以下几个关键步骤:首先,定义一个变分上界,该上界是扩散散度的可计算近似。然后,推导出该上界的梯度表达式,并证明该梯度是无偏的。最后,使用该无偏梯度来训练学生模型,使其能够一步生成高质量的样本。整个框架避免了对score函数的直接估计,而是通过优化变分上界来间接学习生成模型。
关键创新:最重要的技术创新点在于提出了一个变分扩散上界,该上界可以提供无偏的梯度估计。与现有方法依赖于有偏的DSM梯度不同,VarDiU的无偏梯度能够更准确地指导学生模型的训练,从而提高生成质量。这种方法避免了对score函数的直接估计,而是通过优化变分上界来间接学习生成模型,从而绕过了DSM的局限性。
关键设计:VarDiU的关键设计在于变分上界的具体形式。论文中给出了该上界的数学表达式,并详细推导了其梯度。此外,论文还讨论了如何选择合适的变分分布,以及如何优化该分布的参数。具体的损失函数是基于该变分上界的,通过最小化该上界来训练学生模型。网络结构方面,可以使用常见的生成模型结构,例如U-Net等。具体的参数设置需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VarDiU在单步扩散蒸馏任务上取得了显著的性能提升。与Diff-Instruct相比,VarDiU能够生成更高质量的图像,并且训练过程更加稳定和高效。具体的性能数据(例如FID分数)需要在论文中查找。总体而言,VarDiU证明了无偏梯度估计在扩散蒸馏中的重要性,并为未来的研究提供了新的方向。
🎯 应用场景
VarDiU方法在图像生成、音频合成等领域具有广泛的应用前景。它可以用于快速生成高质量的样本,例如用于艺术创作、游戏开发、数据增强等。由于其单步生成特性,VarDiU特别适用于对生成速度有要求的场景。此外,该方法还可以用于压缩现有的扩散模型,使其能够在资源受限的设备上运行。
📄 摘要(原文)
Recently, diffusion distillation methods have compressed thousand-step teacher diffusion models into one-step student generators while preserving sample quality. Most existing approaches train the student model using a diffusive divergence whose gradient is approximated via the student's score function, learned through denoising score matching (DSM). Since DSM training is imperfect, the resulting gradient estimate is inevitably biased, leading to sub-optimal performance. In this paper, we propose VarDiU (pronounced /va:rdju:/), a Variational Diffusive Upper Bound that admits an unbiased gradient estimator and can be directly applied to diffusion distillation. Using this objective, we compare our method with Diff-Instruct and demonstrate that it achieves higher generation quality and enables a more efficient and stable training procedure for one-step diffusion distillation.