Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model

📄 arXiv: 2511.14716v1 📥 PDF

作者: Xiyuan Wang, Muhan Zhang

分类: cs.CV

发布日期: 2025-11-18

备注: Tech Report. 10 pages


💡 一句话要点

提出DSD框架,实现端到端潜在扩散模型单网络训练,解决多阶段训练低效问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 自蒸馏 端到端训练 图像生成 潜在空间 单网络架构 ImageNet

📋 核心要点

  1. 现有潜在扩散模型结构复杂,包含编码器、解码器和扩散网络,训练过程分阶段进行,效率较低。
  2. 论文提出Diffusion as Self-Distillation (DSD)框架,通过改进训练目标,稳定潜在空间,实现端到端单网络训练。
  3. DSD在ImageNet 256x256图像生成任务上取得了优异的FID分数,且参数量较小,无需无分类器指导。

📝 摘要(中文)

标准的潜在扩散模型依赖于一个复杂的三部分架构,包括独立的编码器、解码器和扩散网络,这些网络需要经过多个阶段的训练。这种模块化设计在计算上效率低下,导致次优的性能,并且阻碍了扩散模型与视觉基础模型中常见的单网络架构的统一。本文旨在将这三个组件统一到一个单一的、端到端可训练的网络中。研究表明,由于“潜在崩溃”,朴素的联合训练方法会彻底失败,其中扩散训练目标会干扰网络学习良好潜在表示的能力。通过将扩散与基于自蒸馏的无监督学习方法进行类比,揭示了这种不稳定性的根本原因。基于此,提出了扩散即自蒸馏(DSD),这是一个新的框架,通过对训练目标的关键修改来稳定潜在空间。这种方法首次实现了单个网络的稳定端到端训练,该网络同时学习编码、解码和执行扩散。DSD在ImageNet $256 imes 256$ 条件生成任务上取得了出色的性能:仅使用42M/118M/205M参数,在ImageNet上训练50个epoch,FID分别为13.44/6.38/4.25,且未使用无分类器指导。

🔬 方法详解

问题定义:现有潜在扩散模型通常采用多模块、多阶段的训练方式,计算效率低,性能存在优化空间,且难以与视觉基础模型的单网络架构统一。直接进行端到端联合训练会导致“潜在崩溃”问题,即扩散训练目标会干扰网络学习有效的潜在表示。

核心思路:论文的核心思路是将扩散过程类比为自蒸馏学习,通过分析自蒸馏学习的原理,找到导致潜在崩溃的原因,并对训练目标进行修改,从而稳定潜在空间,实现端到端的单网络训练。这种类比使得能够借鉴自蒸馏学习中的技巧来解决扩散模型训练中的问题。

技术框架:DSD框架的核心是一个单网络结构,该网络同时承担编码、解码和扩散的任务。训练过程不再是分阶段的,而是端到端的。关键在于修改后的训练目标,该目标能够避免潜在崩溃,并促进网络学习有效的潜在表示。整体流程包括:输入图像经过网络编码为潜在表示,然后进行扩散过程,最后通过网络解码重构图像。

关键创新:最重要的技术创新点在于发现了扩散过程与自蒸馏学习之间的联系,并基于此提出了新的训练目标。该训练目标通过稳定潜在空间,解决了端到端训练中的潜在崩溃问题,使得单网络结构的潜在扩散模型成为可能。与传统方法相比,DSD无需单独训练编码器和解码器,大大简化了训练流程。

关键设计:DSD的关键设计在于修改后的训练目标函数。具体的修改细节在论文中进行了详细描述,包括如何借鉴自蒸馏学习中的技巧来稳定潜在空间,以及如何平衡编码、解码和扩散三个任务之间的关系。此外,网络结构的具体设计也对性能有影响,论文中可能采用了特定的卷积神经网络结构或Transformer结构。

📊 实验亮点

DSD在ImageNet 256x256条件生成任务上取得了显著成果。仅使用42M参数的模型,FID达到13.44;使用118M参数的模型,FID达到6.38;使用205M参数的模型,FID达到4.25。这些结果是在仅训练50个epoch且未使用无分类器指导的情况下获得的,表明DSD具有很高的训练效率和生成质量。

🎯 应用场景

DSD框架具有广泛的应用前景,可应用于图像生成、图像编辑、视频生成等领域。由于其单网络结构和端到端训练方式,更易于部署和应用。未来,DSD有望成为视觉基础模型的重要组成部分,推动人工智能在图像和视频领域的进一步发展。

📄 摘要(原文)

Standard Latent Diffusion Models rely on a complex, three-part architecture consisting of a separate encoder, decoder, and diffusion network, which are trained in multiple stages. This modular design is computationally inefficient, leads to suboptimal performance, and prevents the unification of diffusion with the single-network architectures common in vision foundation models. Our goal is to unify these three components into a single, end-to-end trainable network. We first demonstrate that a naive joint training approach fails catastrophically due to ``latent collapse'', where the diffusion training objective interferes with the network's ability to learn a good latent representation. We identify the root causes of this instability by drawing a novel analogy between diffusion and self-distillation based unsupervised learning method. Based on this insight, we propose Diffusion as Self-Distillation (DSD), a new framework with key modifications to the training objective that stabilize the latent space. This approach enables, for the first time, the stable end-to-end training of a single network that simultaneously learns to encode, decode, and perform diffusion. DSD achieves outstanding performance on the ImageNet $256\times 256$ conditional generation task: FID=13.44/6.38/4.25 with only 42M/118M/205M parameters and 50 training epochs on ImageNet, without using classifier-free-guidance.