SubFlow: Sub-mode Conditioned Flow Matching for Diverse One-Step Generation

作者: Yexiong Lin, Jia Shi, Shanshan Ye, Wanyu Wang, Yu Yao, Tongliang Liu

分类: cs.LG, cs.CV

发布日期: 2026-04-14

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出SubFlow，通过子模态条件Flow Matching解决单步生成模型的多样性退化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Flow Matching 生成模型 多样性生成 子模态学习 单步生成 图像生成 条件生成 平均失真

📋 核心要点

现有的Flow Matching单步生成模型存在多样性退化问题，无法覆盖目标分布中的所有模态。
SubFlow通过将类别分解为子模态，并以子模态索引为条件，消除平均失真，从而恢复完整模态覆盖。
SubFlow可即插即用，集成到现有单步模型中，并在ImageNet-256上显著提升生成多样性。

📝 摘要（中文）

Flow Matching已成为一种强大的生成框架，最近的少步方法实现了显著的推理加速。然而，我们发现了一个关键但被忽视的限制：这些模型存在严重的多样性退化，样本集中在主要模态上，而忽略了目标分布中罕见但有效的变体。我们将这种退化归因于平均失真：当使用MSE目标训练时，类条件流学习类内子模态的频率加权平均值，导致模型过度表示高密度模态，而系统地忽略低密度模态。为了解决这个问题，我们提出了SubFlow，即子模态条件Flow Matching，它通过语义聚类将每个类分解为细粒度的子模态，并以子模态索引为条件来消除平均失真。每个条件子分布近似于单峰分布，因此学习到的流能够准确地定位各个模态，而不会产生平均失真，从而在单个推理步骤中恢复完整的模态覆盖。至关重要的是，SubFlow是完全即插即用的：它可以无缝集成到现有的单步模型（如MeanFlow和Shortcut Models）中，而无需任何架构修改。在ImageNet-256上的大量实验表明，SubFlow在保持竞争性图像质量（FID）的同时，在生成多样性（Recall）方面产生了显著的提升，证实了其在不同单步生成框架中的广泛适用性。

🔬 方法详解

问题定义：论文旨在解决Flow Matching单步生成模型中生成样本多样性不足的问题。现有方法，如MeanFlow和Shortcut Models，在加速推理的同时，牺牲了生成样本的多样性，倾向于生成频率较高的模态，而忽略了频率较低但同样有效的模态。这种现象是由于训练过程中对类内子模态进行了平均，导致模型学习到的是一个频率加权平均，从而产生了平均失真。

核心思路：论文的核心思路是将每个类别分解为多个细粒度的子模态，并以这些子模态为条件来训练Flow Matching模型。通过这种方式，模型可以学习到每个子模态的独立分布，避免了对类内子模态进行平均，从而消除了平均失真，提高了生成样本的多样性。

技术框架：SubFlow的整体框架包括以下几个主要步骤：1) 使用语义聚类方法将每个类别分解为多个子模态。2) 修改Flow Matching模型的输入，使其以子模态索引为条件。3) 使用标准的Flow Matching训练目标训练模型。4) 在推理阶段，随机选择一个子模态索引，并使用训练好的模型生成样本。

关键创新：SubFlow最重要的技术创新点在于提出了子模态条件Flow Matching的概念，通过将类别分解为子模态，并以子模态索引为条件来训练模型，从而消除了平均失真，提高了生成样本的多样性。与现有方法相比，SubFlow不需要对模型架构进行任何修改，可以即插即用地集成到现有的单步生成模型中。

关键设计：SubFlow的关键设计包括：1) 使用语义聚类方法（如K-means或GMM）将每个类别分解为多个子模态。2) 将子模态索引作为额外的输入条件添加到Flow Matching模型中。3) 使用标准的Flow Matching训练目标（如MSE）训练模型。4) 在推理阶段，可以通过调整子模态的数量来控制生成样本的多样性。

🖼️ 关键图片

📊 实验亮点

在ImageNet-256数据集上的实验结果表明，SubFlow在保持竞争性图像质量（FID）的同时，显著提高了生成样本的多样性（Recall）。具体来说，SubFlow在Recall指标上取得了显著的提升，证明了其在恢复完整模态覆盖方面的有效性。此外，SubFlow可以无缝集成到现有的单步生成模型（如MeanFlow和Shortcut Models）中，而无需任何架构修改，进一步证明了其广泛适用性。

🎯 应用场景

SubFlow具有广泛的应用前景，可以应用于图像生成、音频生成、文本生成等领域。特别是在需要生成多样化样本的场景下，如艺术创作、游戏设计、数据增强等，SubFlow可以显著提高生成样本的多样性，从而提升用户体验和模型性能。此外，SubFlow还可以应用于异常检测、数据修复等领域，通过生成与正常样本相似但略有不同的样本，来提高模型的鲁棒性和泛化能力。

📄 摘要（原文）

Flow matching has emerged as a powerful generative framework, with recent few-step methods achieving remarkable inference acceleration. However, we identify a critical yet overlooked limitation: these models suffer from severe diversity degradation, concentrating samples on dominant modes while neglecting rare but valid variations of the target distribution. We trace this degradation to averaging distortion: when trained with MSE objectives, class-conditional flows learn a frequency-weighted mean over intra-class sub-modes, causing the model to over-represent high-density modes while systematically neglecting low-density ones. To address this, we propose SubFlow, Sub-mode Conditioned Flow Matching, which eliminates averaging distortion by decomposing each class into fine-grained sub-modes via semantic clustering and conditioning the flow on sub-mode indices. Each conditioned sub-distribution is approximately unimodal, so the learned flow accurately targets individual modes with no averaging distortion, restoring full mode coverage in a single inference step. Crucially, SubFlow is entirely plug-and-play: it integrates seamlessly into existing one-step models such as MeanFlow and Shortcut Models without any architectural modifications. Extensive experiments on ImageNet-256 demonstrate that SubFlow yields substantial gains in generation diversity (Recall) while maintaining competitive image quality (FID), confirming its broad applicability across different one-step generation frameworks. Project page: https://yexionglin.github.io/subflow.

SubFlow: Sub-mode Conditioned Flow Matching for Diverse One-Step Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理