SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

作者: Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Song Han, Enze Xie

分类: cs.GR

发布日期: 2025-03-12 (更新: 2025-09-29)

备注: 22 pages, 11 figures, 8 tables, In submission

💡 一句话要点

SANA-Sprint：基于一致性蒸馏的单步扩散模型，实现超快速文本到图像生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 扩散模型 蒸馏训练 快速推理 连续时间一致性 对抗训练 步长自适应

📋 核心要点

现有扩散模型生成图像速度慢，推理步骤多，难以满足实时应用需求。
SANA-Sprint通过混合蒸馏和步长自适应，将推理步骤减少到1-4步，显著提升生成速度。
实验表明，SANA-Sprint在速度和质量上均优于现有方法，并在多种硬件平台上实现了实时生成。

📝 摘要（中文）

本文提出了SANA-Sprint，一种用于超快速文本到图像（T2I）生成的高效扩散模型。SANA-Sprint构建在预训练的基础模型之上，并采用混合蒸馏进行增强，从而将推理步骤从20步大幅减少到1-4步。我们引入了三个关键创新：(1) 提出了一种免训练方法，该方法转换预训练的流匹配模型，用于连续时间一致性蒸馏（sCM），消除了从头开始的昂贵训练，并实现了高训练效率。我们的混合蒸馏策略将sCM与潜在对抗蒸馏（LADD）相结合：sCM确保与教师模型对齐，而LADD增强单步生成保真度。(2) SANA-Sprint是一种统一的步长自适应模型，可在1-4步中实现高质量生成，消除了特定步骤的训练并提高了效率。(3) 我们将ControlNet与SANA-Sprint集成，以实现实时交互式图像生成，从而为用户交互提供即时视觉反馈。SANA-Sprint在速度-质量权衡方面建立了一个新的帕累托前沿，仅用1步就实现了最先进的性能，FID为7.59，GenEval为0.74，优于FLUX-schnell（FID为7.94 / GenEval为0.71），同时速度快10倍（在H100上为0.1秒 vs 1.1秒）。它还在H100上实现了0.1秒（T2I）和0.25秒（ControlNet）的1024 x 1024图像延迟，在RTX 4090上实现了0.31秒（T2I），展示了其卓越的效率和AI驱动的消费者应用（AIPC）的潜力。代码和预训练模型将开源。

🔬 方法详解

问题定义：论文旨在解决文本到图像生成任务中，现有扩散模型推理速度慢的问题。传统的扩散模型需要多次迭代去噪，计算成本高昂，难以满足实时应用的需求。现有加速方法通常需要针对特定步数进行训练，缺乏灵活性。

核心思路：论文的核心思路是利用混合蒸馏技术，将预训练的扩散模型知识迁移到单步或少数几步的生成模型中。通过连续时间一致性蒸馏（sCM）保证与教师模型的一致性，并通过潜在对抗蒸馏（LADD）提升生成质量。同时，设计步长自适应模型，使其能够在1-4步之间灵活切换，无需针对特定步数进行训练。

技术框架：SANA-Sprint的整体框架包括以下几个主要模块：1) 预训练的流匹配模型（教师模型）；2) 基于sCM和LADD的混合蒸馏模块；3) 步长自适应生成网络；4) 可选的ControlNet集成模块。首先，利用sCM将教师模型的知识蒸馏到学生模型中，保证生成结果与教师模型的一致性。然后，利用LADD进一步提升生成图像的质量和细节。最后，通过步长自适应机制，允许模型在1-4步之间灵活切换，以适应不同的速度和质量需求。

关键创新：论文的关键创新在于：1) 提出了一种免训练的连续时间一致性蒸馏（sCM）方法，避免了从头开始训练的巨大开销；2) 提出了一种混合蒸馏策略，结合sCM和LADD，在保证一致性的同时提升了生成质量；3) 设计了一种步长自适应模型，无需针对特定步数进行训练，提高了模型的灵活性和效率。与现有方法的本质区别在于，SANA-Sprint能够在极少的推理步骤下，实现高质量的图像生成，并在速度和质量之间取得了更好的平衡。

关键设计：在sCM中，利用预训练的流匹配模型作为教师模型，通过最小化学生模型与教师模型之间的差异，实现知识迁移。LADD采用对抗训练的方式，通过判别器来区分生成图像和真实图像，从而提升生成质量。步长自适应机制通过调整噪声水平和采样策略，使模型能够在不同的步数下生成高质量的图像。具体的损失函数包括sCM损失和LADD损失，网络结构采用U-Net架构，并针对快速推理进行了优化。

🖼️ 关键图片

📊 实验亮点

SANA-Sprint在速度和质量上均取得了显著的提升。在1步推理下，SANA-Sprint的FID为7.59，GenEval为0.74，优于FLUX-schnell（FID为7.94 / GenEval为0.71），同时速度快10倍（在H100上为0.1秒 vs 1.1秒）。在H100上，SANA-Sprint实现了0.1秒（T2I）和0.25秒（ControlNet）的1024 x 1024图像延迟，在RTX 4090上实现了0.31秒（T2I）。

🎯 应用场景

SANA-Sprint具有广泛的应用前景，包括：实时图像编辑、AI驱动的消费者应用（AIPC）、游戏开发、虚拟现实/增强现实等。其超快的生成速度和高质量的图像输出，使其能够满足对实时性和交互性要求较高的应用场景。例如，用户可以实时编辑图像，并立即看到结果；游戏开发者可以利用SANA-Sprint快速生成游戏素材；VR/AR应用可以利用SANA-Sprint生成逼真的虚拟环境。

📄 摘要（原文）

This paper presents SANA-Sprint, an efficient diffusion model for ultra-fast text-to-image (T2I) generation. SANA-Sprint is built on a pre-trained foundation model and augmented with hybrid distillation, dramatically reducing inference steps from 20 to 1-4. We introduce three key innovations: (1) We propose a training-free approach that transforms a pre-trained flow-matching model for continuous-time consistency distillation (sCM), eliminating costly training from scratch and achieving high training efficiency. Our hybrid distillation strategy combines sCM with latent adversarial distillation (LADD): sCM ensures alignment with the teacher model, while LADD enhances single-step generation fidelity. (2) SANA-Sprint is a unified step-adaptive model that achieves high-quality generation in 1-4 steps, eliminating step-specific training and improving efficiency. (3) We integrate ControlNet with SANA-Sprint for real-time interactive image generation, enabling instant visual feedback for user interaction. SANA-Sprint establishes a new Pareto frontier in speed-quality tradeoffs, achieving state-of-the-art performance with 7.59 FID and 0.74 GenEval in only 1 step - outperforming FLUX-schnell (7.94 FID / 0.71 GenEval) while being 10x faster (0.1s vs 1.1s on H100). It also achieves 0.1s (T2I) and 0.25s (ControlNet) latency for 1024 x 1024 images on H100, and 0.31s (T2I) on an RTX 4090, showcasing its exceptional efficiency and potential for AI-powered consumer applications (AIPC). Code and pre-trained models will be open-sourced.

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理