Mean Flows for One-step Generative Modeling
作者: Zhengyang Geng, Mingyang Deng, Xingjian Bai, J. Zico Kolter, Kaiming He
分类: cs.LG, cs.CV
发布日期: 2025-05-19
备注: Tech report
💡 一句话要点
提出MeanFlow模型,通过平均速度建模实现高效单步生成建模,显著提升图像生成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 生成模型 单步生成 流模型 平均速度 图像生成 扩散模型 神经网络
📋 核心要点
- 现有单步生成模型在生成质量上与多步模型存在差距,限制了其应用。
- MeanFlow模型通过建模平均速度而非瞬时速度,并推导平均速度与瞬时速度的恒等关系,指导网络训练。
- 实验表明,MeanFlow在ImageNet 256x256上实现了3.43的FID,显著优于现有单步模型。
📝 摘要(中文)
本文提出了一种原则性且有效的单步生成建模框架。与Flow Matching方法建模瞬时速度不同,我们引入了平均速度的概念来表征流场。推导了平均速度和瞬时速度之间明确的恒等关系,并用其指导神经网络训练。我们提出的方法,称为MeanFlow模型,是自洽的,不需要预训练、知识蒸馏或课程学习。MeanFlow展示了强大的经验性能:在从头开始训练的ImageNet 256x256数据集上,仅使用单次函数评估(1-NFE)就实现了3.43的FID,显著优于以前最先进的单步扩散/流模型。我们的研究大大缩小了单步扩散/流模型与其多步前辈之间的差距,我们希望它能激发未来的研究重新审视这些强大模型的基础。
🔬 方法详解
问题定义:论文旨在解决单步生成模型在图像生成质量上不如多步模型的问题。现有的单步扩散/流模型通常依赖于建模瞬时速度,这可能导致训练不稳定或生成质量下降。
核心思路:论文的核心思路是引入平均速度的概念来表征流场,而不是像Flow Matching方法那样建模瞬时速度。通过建模平均速度,可以更稳定地学习流场的整体结构,从而提高生成质量。论文推导了平均速度和瞬时速度之间的恒等关系,利用这个关系来指导神经网络的训练。
技术框架:MeanFlow模型的整体框架包括以下几个主要步骤:1) 定义平均速度场;2) 推导平均速度和瞬时速度之间的恒等关系;3) 使用神经网络来近似瞬时速度场;4) 使用推导出的恒等关系来训练神经网络,使得网络学习到的瞬时速度场能够产生期望的平均速度场。
关键创新:最重要的技术创新点在于引入了平均速度的概念,并推导了平均速度和瞬时速度之间的恒等关系。这个恒等关系为训练单步生成模型提供了一个更稳定和有效的指导信号,避免了直接建模瞬时速度可能带来的问题。
关键设计:论文中没有详细说明具体的网络结构和损失函数设计,但强调了利用平均速度和瞬时速度之间的恒等关系来构建损失函数,以指导神经网络的训练。具体的参数设置和网络结构可能需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
MeanFlow模型在ImageNet 256x256数据集上取得了显著的性能提升,仅使用单次函数评估(1-NFE)就实现了3.43的FID。这一结果显著优于之前最先进的单步扩散/流模型,表明MeanFlow在单步生成建模方面具有强大的竞争力,并缩小了与多步模型之间的差距。
🎯 应用场景
MeanFlow模型具有广泛的应用前景,包括图像生成、图像编辑、图像修复等。由于其单步生成特性,可以实现快速的图像生成和处理,适用于对实时性要求较高的应用场景。该研究有望推动单步生成模型的发展,使其在实际应用中更具竞争力。
📄 摘要(原文)
We propose a principled and effective framework for one-step generative modeling. We introduce the notion of average velocity to characterize flow fields, in contrast to instantaneous velocity modeled by Flow Matching methods. A well-defined identity between average and instantaneous velocities is derived and used to guide neural network training. Our method, termed the MeanFlow model, is self-contained and requires no pre-training, distillation, or curriculum learning. MeanFlow demonstrates strong empirical performance: it achieves an FID of 3.43 with a single function evaluation (1-NFE) on ImageNet 256x256 trained from scratch, significantly outperforming previous state-of-the-art one-step diffusion/flow models. Our study substantially narrows the gap between one-step diffusion/flow models and their multi-step predecessors, and we hope it will motivate future research to revisit the foundations of these powerful models.