MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model

📄 arXiv: 2603.26357 📥 PDF

作者: Quan Dao, Dimitris Metaxas

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出MPDiT:一种多尺度Transformer架构,用于高效Flow Matching和扩散模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 Transformer 多尺度 Flow Matching 图像生成 计算效率 深度学习

📋 核心要点

  1. Diffusion Transformer (DiT) 在扩散模型中表现出色,但其同构设计导致训练计算量大。
  2. MPDiT采用多尺度patch策略,早期使用大patch捕获全局信息,后期使用小patch细化局部信息。
  3. 实验表明,MPDiT能显著降低计算成本,同时保持良好的生成性能,并加速训练收敛。

📝 摘要(中文)

本文提出了一种多尺度Transformer架构,称为MPDiT,旨在提升Flow Matching和扩散模型的效率。与传统的Diffusion Transformer (DiT) 相比,MPDiT采用多尺度patch策略,在早期模块使用较大的patch以捕获全局上下文,而在后期模块使用较小的patch以细化局部细节。这种分层设计能够减少高达50%的GFLOPs计算成本,同时保持良好的生成性能。此外,本文还提出了改进的时间和类别嵌入设计,以加速训练收敛。在ImageNet数据集上的大量实验证明了该架构选择的有效性。

🔬 方法详解

问题定义:现有的Diffusion Transformer (DiT) 架构在扩散模型和Flow Matching模型中表现出色,但其同构设计,即每个block处理相同数量的patchified tokens,导致训练过程中计算量巨大,效率较低。尤其是在高分辨率图像生成任务中,计算资源的消耗成为一个显著的瓶颈。

核心思路:MPDiT的核心思路是引入多尺度patch策略,模仿人类视觉系统对图像的处理方式。早期阶段关注全局信息,使用较大的patch尺寸来捕获图像的整体结构和上下文;后期阶段则关注局部细节,使用较小的patch尺寸来精细化图像的纹理和边缘。通过这种分层处理方式,可以在保证生成质量的前提下,显著降低计算复杂度。

技术框架:MPDiT的整体架构基于Transformer,但其关键在于多尺度patch的处理方式。模型首先将输入图像分割成一系列patch,然后通过一个patch embedding层将这些patch映射到高维空间。接下来,模型由多个Transformer block组成,这些block被分为几个阶段。在早期阶段,block处理较大的patch,而在后期阶段,block处理较小的patch。每个阶段之间通过一个patch merging层来实现patch尺寸的减小和特征通道的增加。此外,模型还包括时间和类别嵌入模块,用于将时间步和类别信息融入到特征表示中。

关键创新:MPDiT最重要的技术创新点在于其多尺度patch处理策略。与传统的DiT架构相比,MPDiT能够根据图像的不同区域和不同阶段的需求,自适应地调整patch尺寸,从而实现更高效的计算。此外,改进的时间和类别嵌入设计也加速了训练的收敛速度。

关键设计:MPDiT的关键设计包括:1) 多尺度patch尺寸的选择:需要根据具体的任务和数据集进行调整,以平衡计算复杂度和生成质量。2) patch merging层的设计:需要保证特征信息的有效传递和融合。3) 时间和类别嵌入的设计:需要确保时间步和类别信息能够有效地融入到特征表示中,并加速训练收敛。具体的参数设置和网络结构细节需要在实验中进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MPDiT在ImageNet数据集上能够以更低的计算成本(GFLOPs降低高达50%)达到与传统DiT架构相当甚至更好的生成性能。此外,改进的时间和类别嵌入设计也显著加速了训练的收敛速度。这些结果验证了MPDiT架构的有效性和优越性。

🎯 应用场景

MPDiT架构可广泛应用于图像生成、图像编辑、视频生成等领域。其高效的计算特性使其在资源受限的设备上部署大型扩散模型成为可能。此外,该架构的设计思想也可以推广到其他Transformer模型中,提升其在各种视觉任务中的效率和性能。未来,MPDiT有望推动扩散模型在实际应用中的普及。

📄 摘要(原文)

Transformer architectures, particularly Diffusion Transformers (DiTs), have become widely used in diffusion and flow-matching models due to their strong performance compared to convolutional UNets. However, the isotropic design of DiTs processes the same number of patchified tokens in every block, leading to relatively heavy computation during training process. In this work, we introduce a multi-patch transformer design in which early blocks operate on larger patches to capture coarse global context, while later blocks use smaller patches to refine local details. This hierarchical design could reduces computational cost by up to 50% in GFLOPs while achieving good generative performance. In addition, we also propose improved designs for time and class embeddings that accelerate training convergence. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our architectural choices. Code is released at:this https URL