SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

作者: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang

分类: cs.CV

发布日期: 2025-05-31

备注: under review

🔗 代码/项目: GITHUB

💡 一句话要点

SenseFlow：通过缩放分布匹配实现Flow模型文本到图像的蒸馏

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文本到图像生成 蒸馏训练 Flow模型 分布匹配 隐式分布对齐 段内指导 模型压缩

📋 核心要点

现有DMD方法在应用于大规模Flow模型（如SD 3.5和FLUX）时，面临收敛困难，限制了其在大规模模型上的应用。
论文提出隐式分布对齐(IDA)和段内指导(ISG)两种方法，分别用于规范生成器分布和重定位时间步重要性，以解决收敛问题。
实验结果表明，SenseFlow在SDXL、SD 3.5 Large和FLUX等模型上实现了卓越的蒸馏性能，验证了所提出方法的有效性。

📝 摘要（中文）

分布匹配蒸馏(DMD)已成功应用于Stable Diffusion (SD) 1.5等文本到图像扩散模型。然而，原始DMD在大规模基于Flow的文本到图像模型（如SD 3.5和FLUX）上存在收敛困难。本文首先分析了将原始DMD应用于大规模模型时的问题。然后，为了克服可扩展性挑战，我们提出了隐式分布对齐(IDA)来规范生成器和伪分布之间的距离。此外，我们提出了段内指导(ISG)来重新定位教师模型的时间步重要性分布。仅使用IDA，DMD即可收敛于SD 3.5；同时使用IDA和ISG，DMD可收敛于SD 3.5和FLUX.1 dev。结合其他改进，如扩大判别器模型，我们最终的模型，称为 extbf{SenseFlow}，在基于扩散的文本到图像模型（如SDXL）和Flow匹配模型（如SD 3.5 Large和FLUX）的蒸馏中都实现了卓越的性能。源代码将在https://github.com/XingtongGe/SenseFlow上提供。

🔬 方法详解

问题定义：论文旨在解决将分布匹配蒸馏(DMD)应用于大规模Flow-based文本到图像模型时遇到的收敛困难问题。现有DMD方法在处理如SD 3.5和FLUX等大型模型时，由于模型复杂性和训练数据规模的增加，容易出现训练不稳定和收敛速度慢的问题，导致蒸馏效果不佳。

核心思路：论文的核心思路是通过引入隐式分布对齐(IDA)和段内指导(ISG)来稳定训练过程并提高蒸馏效果。IDA通过规范生成器和伪分布之间的距离，使得生成器能够更好地学习教师模型的分布。ISG则通过重新定位时间步重要性分布，使得学生模型能够更好地关注重要的时间步，从而提高生成质量。

技术框架：SenseFlow的整体框架基于DMD，并在此基础上添加了IDA和ISG模块。首先，使用教师模型生成伪数据。然后，利用IDA来约束生成器和伪数据分布之间的距离。同时，利用ISG来调整时间步重要性分布。最后，通过判别器来区分真实数据和生成数据，从而训练生成器。

关键创新：论文的关键创新在于提出了IDA和ISG两种方法。IDA通过隐式地对齐生成器和伪数据分布，避免了直接计算分布距离的困难，从而提高了训练的稳定性。ISG则通过重新定位时间步重要性分布，使得学生模型能够更好地学习教师模型的生成过程。

关键设计：IDA通过最小化生成器输出和伪数据之间的距离来实现，可以使用各种距离度量，如L1或L2距离。ISG通过调整时间步的权重来实现，可以使用各种权重调整策略，如基于教师模型输出的梯度或方差来调整权重。此外，论文还使用了更大的判别器模型来提高判别能力。

🖼️ 关键图片

📊 实验亮点

SenseFlow在SDXL、SD 3.5 Large和FLUX等模型上进行了实验，结果表明，该方法能够显著提高蒸馏模型的性能。例如，在SD 3.5 Large上，SenseFlow能够实现与教师模型相媲美的生成质量，同时显著减少了模型大小和计算量。实验结果验证了IDA和ISG的有效性，并表明SenseFlow是一种有效的文本到图像蒸馏方法。

🎯 应用场景

SenseFlow的研究成果可应用于各种文本到图像生成任务，尤其是在资源受限的场景下，可以通过蒸馏将大型模型压缩为小型模型，从而在移动设备或边缘设备上部署高质量的图像生成应用。此外，该方法还可以用于加速新模型的训练过程，提高开发效率。

📄 摘要（原文）

The Distribution Matching Distillation (DMD) has been successfully applied to text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However, vanilla DMD suffers from convergence difficulties on large-scale flow-based text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze the issues when applying vanilla DMD on large-scale models. Then, to overcome the scalability challenge, we propose implicit distribution alignment (IDA) to regularize the distance between the generator and fake distribution. Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep importance distribution from the teacher model. With IDA alone, DMD converges for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1 dev. Along with other improvements such as scaled up discriminator models, our final model, dubbed \textbf{SenseFlow}, achieves superior performance in distillation for both diffusion based text-to-image models such as SDXL, and flow-matching models such as SD 3.5 Large and FLUX. The source code will be avaliable at https://github.com/XingtongGe/SenseFlow.

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理