Mean Flow Distillation: Robust and Stable Distillation for Flow Matching Models
作者: An Zhao, Shengyuan Zhang, Zhongjian Sun, Yixiang Zhou, Zejian Li, Ling Yang, Tianrun Chen, Lingyun Sun
分类: cs.CV
发布日期: 2026-06-09
💡 一句话要点
提出均流蒸馏以解决流匹配模型的计算开销问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 流匹配模型 均流蒸馏 生成任务 高维流形 计算效率 生成质量 时间低通滤波器
📋 核心要点
- 现有流匹配模型在推理时依赖ODE迭代采样,导致计算开销大,限制实时应用。
- 提出均流蒸馏(MFD),作为时间低通滤波器,有效抑制高频噪声,确保轨迹一致性。
- 在4D占用预测和文本到图像生成等高维任务中,MFD实现了最先进的性能,提升了生成质量。
📝 摘要(中文)
流匹配模型在多种生成任务中表现出色,但其基于常微分方程的迭代采样在推理时带来了显著的计算开销,限制了其在实时场景中的应用。现有的蒸馏方法多借鉴扩散基础的得分匹配,未能充分利用流的内在几何结构,导致训练不稳定、高方差及生成质量下降。本文提出均流蒸馏(MFD),为流匹配模型量身定制的蒸馏框架。理论上证明MFD作为时间低通滤波器,有效抑制变分得分蒸馏中的高频优化噪声,同时确保全局轨迹一致性。进一步证明均流匹配定理,表明匹配期望平均速度足以实现严格的分布对齐。在高维流形的挑战性任务中,MFD实现了最先进的性能,支持高保真单步生成。
🔬 方法详解
问题定义:本文旨在解决流匹配模型在推理时的高计算开销问题。现有方法主要依赖于基于ODE的迭代采样,导致实时应用受限,同时训练过程不稳定,生成质量下降。
核心思路:均流蒸馏(MFD)通过作为时间低通滤波器,抑制高频优化噪声,确保全局轨迹一致性,从而提高生成质量和稳定性。
技术框架:MFD框架包括数据预处理、流模型训练、蒸馏过程和生成阶段。通过优化期望平均速度,实现流的严格分布对齐。
关键创新:MFD的核心创新在于均流匹配定理,证明了匹配期望平均速度足以实现流的严格分布对齐,这与现有方法的思路有本质区别。
关键设计:在损失函数设计上,MFD引入了低通滤波机制,并在网络结构中优化了流模型的参数设置,以提高训练的稳定性和生成的质量。
🖼️ 关键图片
📊 实验亮点
在4D占用预测和文本到图像生成等高维任务中,均流蒸馏(MFD)实现了最先进的性能,相较于基线方法,生成质量显著提升,具体性能数据表明生成的图像更加清晰且一致性更强。
🎯 应用场景
该研究的潜在应用领域包括实时生成任务,如视频生成、图像合成和动态场景预测等。通过降低计算开销,均流蒸馏能够使流匹配模型在实际应用中更加高效,具有重要的实际价值和广泛的未来影响。
📄 摘要(原文)
Flow Matching models have demonstrated strong performance across a wide range of generative tasks. However, their reliance on ODE-based iterative sampling incurs substantial computational overhead in inference, which limits their applicability in real-time scenes. While distillation is a promising solution, existing approaches largely borrow from diffusion-based score matching, often failing to exploit the intrinsic geometric structure of flows and suffering from training instability, high variance, and degraded generation quality. In this paper, we propose Mean Flow Distillation (MFD), a novel distillation framework tailored for flow matching models. We theoretically demonstrate that MFD acts as a temporal low-pass filter, effectively suppressing the high-frequency optimization noise inherent in variational score distillation (VSD) while ensuring global trajectory consistency. We further prove the Mean Flow Matching Theorem, establishing that matching expected average velocities is sufficient for strict distribution alignment. Empirically, on challenging tasks of high-dimensional manifolds including 4D occupancy forecasting and text-to-image generation, MFD achieves state-of-the-art performance, enabling high-fidelity single-step generation.