SubFlow: Sub-mode Conditioned Flow Matching for Diverse One-Step Generation

📄 arXiv: 2604.12273v1 📥 PDF

作者: Yexiong Lin, Jia Shi, Shanshan Ye, Wanyu Wang, Yu Yao, Tongliang Liu

分类: cs.LG, cs.CV

发布日期: 2026-04-14

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SubFlow,通过子模态条件Flow Matching解决单步生成模型的多样性退化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Flow Matching 生成模型 多样性生成 子模态学习 单步生成 图像生成 条件生成 平均失真

📋 核心要点

  1. 现有的Flow Matching单步生成模型存在多样性退化问题,无法覆盖目标分布中的所有模态。
  2. SubFlow通过将类别分解为子模态,并以子模态索引为条件,消除平均失真,从而恢复完整模态覆盖。
  3. SubFlow可即插即用,集成到现有单步模型中,并在ImageNet-256上显著提升生成多样性。

📝 摘要(中文)

Flow Matching已成为一种强大的生成框架,最近的少步方法实现了显著的推理加速。然而,我们发现了一个关键但被忽视的限制:这些模型存在严重的多样性退化,样本集中在主要模态上,而忽略了目标分布中罕见但有效的变体。我们将这种退化归因于平均失真:当使用MSE目标训练时,类条件流学习类内子模态的频率加权平均值,导致模型过度表示高密度模态,而系统地忽略低密度模态。为了解决这个问题,我们提出了SubFlow,即子模态条件Flow Matching,它通过语义聚类将每个类分解为细粒度的子模态,并以子模态索引为条件来消除平均失真。每个条件子分布近似于单峰分布,因此学习到的流能够准确地定位各个模态,而不会产生平均失真,从而在单个推理步骤中恢复完整的模态覆盖。至关重要的是,SubFlow是完全即插即用的:它可以无缝集成到现有的单步模型(如MeanFlow和Shortcut Models)中,而无需任何架构修改。在ImageNet-256上的大量实验表明,SubFlow在保持竞争性图像质量(FID)的同时,在生成多样性(Recall)方面产生了显著的提升,证实了其在不同单步生成框架中的广泛适用性。

🔬 方法详解

问题定义:论文旨在解决Flow Matching单步生成模型中生成样本多样性不足的问题。现有方法,如MeanFlow和Shortcut Models,在加速推理的同时,牺牲了生成样本的多样性,倾向于生成频率较高的模态,而忽略了频率较低但同样有效的模态。这种现象是由于训练过程中对类内子模态进行了平均,导致模型学习到的是一个频率加权平均,从而产生了平均失真。

核心思路:论文的核心思路是将每个类别分解为多个细粒度的子模态,并以这些子模态为条件来训练Flow Matching模型。通过这种方式,模型可以学习到每个子模态的独立分布,避免了对类内子模态进行平均,从而消除了平均失真,提高了生成样本的多样性。

技术框架:SubFlow的整体框架包括以下几个主要步骤:1) 使用语义聚类方法将每个类别分解为多个子模态。2) 修改Flow Matching模型的输入,使其以子模态索引为条件。3) 使用标准的Flow Matching训练目标训练模型。4) 在推理阶段,随机选择一个子模态索引,并使用训练好的模型生成样本。

关键创新:SubFlow最重要的技术创新点在于提出了子模态条件Flow Matching的概念,通过将类别分解为子模态,并以子模态索引为条件来训练模型,从而消除了平均失真,提高了生成样本的多样性。与现有方法相比,SubFlow不需要对模型架构进行任何修改,可以即插即用地集成到现有的单步生成模型中。

关键设计:SubFlow的关键设计包括:1) 使用语义聚类方法(如K-means或GMM)将每个类别分解为多个子模态。2) 将子模态索引作为额外的输入条件添加到Flow Matching模型中。3) 使用标准的Flow Matching训练目标(如MSE)训练模型。4) 在推理阶段,可以通过调整子模态的数量来控制生成样本的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ImageNet-256数据集上的实验结果表明,SubFlow在保持竞争性图像质量(FID)的同时,显著提高了生成样本的多样性(Recall)。具体来说,SubFlow在Recall指标上取得了显著的提升,证明了其在恢复完整模态覆盖方面的有效性。此外,SubFlow可以无缝集成到现有的单步生成模型(如MeanFlow和Shortcut Models)中,而无需任何架构修改,进一步证明了其广泛适用性。

🎯 应用场景

SubFlow具有广泛的应用前景,可以应用于图像生成、音频生成、文本生成等领域。特别是在需要生成多样化样本的场景下,如艺术创作、游戏设计、数据增强等,SubFlow可以显著提高生成样本的多样性,从而提升用户体验和模型性能。此外,SubFlow还可以应用于异常检测、数据修复等领域,通过生成与正常样本相似但略有不同的样本,来提高模型的鲁棒性和泛化能力。

📄 摘要(原文)

Flow matching has emerged as a powerful generative framework, with recent few-step methods achieving remarkable inference acceleration. However, we identify a critical yet overlooked limitation: these models suffer from severe diversity degradation, concentrating samples on dominant modes while neglecting rare but valid variations of the target distribution. We trace this degradation to averaging distortion: when trained with MSE objectives, class-conditional flows learn a frequency-weighted mean over intra-class sub-modes, causing the model to over-represent high-density modes while systematically neglecting low-density ones. To address this, we propose SubFlow, Sub-mode Conditioned Flow Matching, which eliminates averaging distortion by decomposing each class into fine-grained sub-modes via semantic clustering and conditioning the flow on sub-mode indices. Each conditioned sub-distribution is approximately unimodal, so the learned flow accurately targets individual modes with no averaging distortion, restoring full mode coverage in a single inference step. Crucially, SubFlow is entirely plug-and-play: it integrates seamlessly into existing one-step models such as MeanFlow and Shortcut Models without any architectural modifications. Extensive experiments on ImageNet-256 demonstrate that SubFlow yields substantial gains in generation diversity (Recall) while maintaining competitive image quality (FID), confirming its broad applicability across different one-step generation frameworks. Project page: https://yexionglin.github.io/subflow.