Accelerating Diffusion Decoders via Multi-Scale Sampling and One-Step Distillation
作者: Chuhan Wang, Hao Chen
分类: cs.CV
发布日期: 2026-03-20
💡 一句话要点
提出多尺度采样与一步蒸馏加速扩散解码器以解决延迟问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散解码器 图像标记 多尺度采样 蒸馏训练 实时生成 高保真度重建
📋 核心要点
- 现有的扩散解码器在图像重建中存在显著的延迟,限制了其实时和大规模应用的可行性。
- 提出了一种两阶段加速框架,结合多尺度采样和单步蒸馏技术,以提高解码效率。
- 实验结果表明,该方法在解码时间上减少了数量级,同时保持了高质量的输出效果。
📝 摘要(中文)
图像标记在现代生成建模中起着核心作用,通过将视觉输入映射为紧凑的表示,作为像素与生成模型之间的中介信号。扩散解码器最近被用于图像标记,以高保真度重建图像。然而,其迭代采样过程引入了显著的延迟,使其在实时或大规模应用中不够实用。本文提出了一种两阶段加速框架,首先采用多尺度采样策略,从粗分辨率开始解码,并在每个阶段逐步提高分辨率,理论上实现了与标准全分辨率采样相比的$ ext{O}( ext{log } n)$速度提升。其次,我们在每个尺度上将扩散解码器蒸馏为单步去噪模型,使得每个尺度的重建可以在单次前向传递中快速高质量完成。结合这些技术,我们实现了解码时间的数量级减少,同时输出质量几乎没有下降。
🔬 方法详解
问题定义:本文旨在解决扩散解码器在图像重建中的高延迟问题,现有方法的迭代采样过程导致了效率低下,无法满足实时应用需求。
核心思路:通过引入多尺度采样和单步蒸馏,首先在较低分辨率下开始解码,逐步提高分辨率,并将每个尺度的解码过程简化为单步去噪,从而加速重建过程。
技术框架:整体框架分为两个主要阶段:第一阶段为多尺度采样,从粗到细逐步提高分辨率;第二阶段为将每个尺度的扩散解码器蒸馏为单步去噪模型,确保快速重建。
关键创新:最重要的创新在于结合了多尺度采样与单步蒸馏技术,显著减少了解码时间,并保持了输出质量的稳定性,与传统的全分辨率采样方法相比具有本质区别。
关键设计:在参数设置上,采用了逐步提高分辨率的策略,损失函数设计上注重保留高保真度的重建效果,网络结构则优化为适应单步去噪的需求。
🖼️ 关键图片
📊 实验亮点
实验结果显示,采用多尺度采样和单步蒸馏后,解码时间减少了数量级,且输出质量几乎没有下降,验证了方法的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括实时图像生成、视频处理和大规模视觉数据分析等。通过提高解码效率,能够在更多实际场景中应用图像标记技术,推动生成模型的实际应用与发展。
📄 摘要(原文)
Image tokenization plays a central role in modern generative modeling by mapping visual inputs into compact representations that serve as an intermediate signal between pixels and generative models. Diffusion-based decoders have recently been adopted in image tokenization to reconstruct images from latent representations with high perceptual fidelity. In contrast to diffusion models used for downstream generation, these decoders are dedicated to faithful reconstruction rather than content generation. However, their iterative sampling process introduces significant latency, making them impractical for real-time or large-scale applications. In this work, we introduce a two-stage acceleration framework to address this inefficiency. First, we propose a multi-scale sampling strategy, where decoding begins at a coarse resolution and progressively refines the output by doubling the resolution at each stage, achieving a theoretical speedup of $\mathcal{O}(\log n)$ compared to standard full-resolution sampling. Second, we distill the diffusion decoder at each scale into a single-step denoising model, enabling fast and high-quality reconstructions in a single forward pass per scale. Together, these techniques yield an order-of-magnitude reduction in decoding time with little degradation in output quality. Our approach provides a practical pathway toward efficient yet expressive image tokenizers. We hope it serves as a foundation for future work in efficient visual tokenization and downstream generation.