SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation
作者: Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Song Han, Enze Xie
分类: cs.GR
发布日期: 2025-03-12 (更新: 2025-09-29)
备注: 22 pages, 11 figures, 8 tables, In submission
💡 一句话要点
SANA-Sprint:基于一致性蒸馏的单步扩散模型,实现超快速文本到图像生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 扩散模型 蒸馏训练 快速推理 连续时间一致性 对抗训练 步长自适应
📋 核心要点
- 现有扩散模型生成图像速度慢,推理步骤多,难以满足实时应用需求。
- SANA-Sprint通过混合蒸馏和步长自适应,将推理步骤减少到1-4步,显著提升生成速度。
- 实验表明,SANA-Sprint在速度和质量上均优于现有方法,并在多种硬件平台上实现了实时生成。
📝 摘要(中文)
本文提出了SANA-Sprint,一种用于超快速文本到图像(T2I)生成的高效扩散模型。SANA-Sprint构建在预训练的基础模型之上,并采用混合蒸馏进行增强,从而将推理步骤从20步大幅减少到1-4步。我们引入了三个关键创新:(1) 提出了一种免训练方法,该方法转换预训练的流匹配模型,用于连续时间一致性蒸馏(sCM),消除了从头开始的昂贵训练,并实现了高训练效率。我们的混合蒸馏策略将sCM与潜在对抗蒸馏(LADD)相结合:sCM确保与教师模型对齐,而LADD增强单步生成保真度。(2) SANA-Sprint是一种统一的步长自适应模型,可在1-4步中实现高质量生成,消除了特定步骤的训练并提高了效率。(3) 我们将ControlNet与SANA-Sprint集成,以实现实时交互式图像生成,从而为用户交互提供即时视觉反馈。SANA-Sprint在速度-质量权衡方面建立了一个新的帕累托前沿,仅用1步就实现了最先进的性能,FID为7.59,GenEval为0.74,优于FLUX-schnell(FID为7.94 / GenEval为0.71),同时速度快10倍(在H100上为0.1秒 vs 1.1秒)。它还在H100上实现了0.1秒(T2I)和0.25秒(ControlNet)的1024 x 1024图像延迟,在RTX 4090上实现了0.31秒(T2I),展示了其卓越的效率和AI驱动的消费者应用(AIPC)的潜力。代码和预训练模型将开源。
🔬 方法详解
问题定义:论文旨在解决文本到图像生成任务中,现有扩散模型推理速度慢的问题。传统的扩散模型需要多次迭代去噪,计算成本高昂,难以满足实时应用的需求。现有加速方法通常需要针对特定步数进行训练,缺乏灵活性。
核心思路:论文的核心思路是利用混合蒸馏技术,将预训练的扩散模型知识迁移到单步或少数几步的生成模型中。通过连续时间一致性蒸馏(sCM)保证与教师模型的一致性,并通过潜在对抗蒸馏(LADD)提升生成质量。同时,设计步长自适应模型,使其能够在1-4步之间灵活切换,无需针对特定步数进行训练。
技术框架:SANA-Sprint的整体框架包括以下几个主要模块:1) 预训练的流匹配模型(教师模型);2) 基于sCM和LADD的混合蒸馏模块;3) 步长自适应生成网络;4) 可选的ControlNet集成模块。首先,利用sCM将教师模型的知识蒸馏到学生模型中,保证生成结果与教师模型的一致性。然后,利用LADD进一步提升生成图像的质量和细节。最后,通过步长自适应机制,允许模型在1-4步之间灵活切换,以适应不同的速度和质量需求。
关键创新:论文的关键创新在于:1) 提出了一种免训练的连续时间一致性蒸馏(sCM)方法,避免了从头开始训练的巨大开销;2) 提出了一种混合蒸馏策略,结合sCM和LADD,在保证一致性的同时提升了生成质量;3) 设计了一种步长自适应模型,无需针对特定步数进行训练,提高了模型的灵活性和效率。与现有方法的本质区别在于,SANA-Sprint能够在极少的推理步骤下,实现高质量的图像生成,并在速度和质量之间取得了更好的平衡。
关键设计:在sCM中,利用预训练的流匹配模型作为教师模型,通过最小化学生模型与教师模型之间的差异,实现知识迁移。LADD采用对抗训练的方式,通过判别器来区分生成图像和真实图像,从而提升生成质量。步长自适应机制通过调整噪声水平和采样策略,使模型能够在不同的步数下生成高质量的图像。具体的损失函数包括sCM损失和LADD损失,网络结构采用U-Net架构,并针对快速推理进行了优化。
🖼️ 关键图片
📊 实验亮点
SANA-Sprint在速度和质量上均取得了显著的提升。在1步推理下,SANA-Sprint的FID为7.59,GenEval为0.74,优于FLUX-schnell(FID为7.94 / GenEval为0.71),同时速度快10倍(在H100上为0.1秒 vs 1.1秒)。在H100上,SANA-Sprint实现了0.1秒(T2I)和0.25秒(ControlNet)的1024 x 1024图像延迟,在RTX 4090上实现了0.31秒(T2I)。
🎯 应用场景
SANA-Sprint具有广泛的应用前景,包括:实时图像编辑、AI驱动的消费者应用(AIPC)、游戏开发、虚拟现实/增强现实等。其超快的生成速度和高质量的图像输出,使其能够满足对实时性和交互性要求较高的应用场景。例如,用户可以实时编辑图像,并立即看到结果;游戏开发者可以利用SANA-Sprint快速生成游戏素材;VR/AR应用可以利用SANA-Sprint生成逼真的虚拟环境。
📄 摘要(原文)
This paper presents SANA-Sprint, an efficient diffusion model for ultra-fast text-to-image (T2I) generation. SANA-Sprint is built on a pre-trained foundation model and augmented with hybrid distillation, dramatically reducing inference steps from 20 to 1-4. We introduce three key innovations: (1) We propose a training-free approach that transforms a pre-trained flow-matching model for continuous-time consistency distillation (sCM), eliminating costly training from scratch and achieving high training efficiency. Our hybrid distillation strategy combines sCM with latent adversarial distillation (LADD): sCM ensures alignment with the teacher model, while LADD enhances single-step generation fidelity. (2) SANA-Sprint is a unified step-adaptive model that achieves high-quality generation in 1-4 steps, eliminating step-specific training and improving efficiency. (3) We integrate ControlNet with SANA-Sprint for real-time interactive image generation, enabling instant visual feedback for user interaction. SANA-Sprint establishes a new Pareto frontier in speed-quality tradeoffs, achieving state-of-the-art performance with 7.59 FID and 0.74 GenEval in only 1 step - outperforming FLUX-schnell (7.94 FID / 0.71 GenEval) while being 10x faster (0.1s vs 1.1s on H100). It also achieves 0.1s (T2I) and 0.25s (ControlNet) latency for 1024 x 1024 images on H100, and 0.31s (T2I) on an RTX 4090, showcasing its exceptional efficiency and potential for AI-powered consumer applications (AIPC). Code and pre-trained models will be open-sourced.