Demystifying Transition Matching: When and Why It Can Beat Flow Matching

📄 arXiv: 2510.17991v1 📥 PDF

作者: Jaihoon Kim, Rajarshi Saha, Minhyuk Sung, Youngsuk Park

分类: cs.LG, cs.CV

发布日期: 2025-10-20


💡 一句话要点

揭示Transition Matching优势:在分离模态和非零方差目标分布下超越Flow Matching

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 生成模型 Flow Matching Transition Matching KL散度 高斯混合模型

📋 核心要点

  1. Flow Matching在生成模型中应用广泛,但Transition Matching在特定情况下表现更优,核心问题是明确TM优于FM的条件。
  2. 论文核心思想是TM通过随机差分更新保留目标协方差,从而在单峰高斯分布和分离模态的高斯混合模型中优于FM。
  3. 实验结果表明,在目标分布具有良好分离的模态和非零方差时,TM优于FM,并在图像和视频生成等实际应用中验证了理论。

📝 摘要(中文)

Flow Matching (FM) 是许多先进生成模型的基础,但最近的结果表明,Transition Matching (TM) 可以用更少的采样步骤实现更高的质量。本文旨在解答 TM 何时以及为何优于 FM 的问题。首先,当目标是单峰高斯分布时,我们证明对于有限数量的步骤,TM 实现了比 FM 严格更低的 KL 散度。这种改进源于 TM 中随机差分潜在更新,它保留了确定性 FM 低估的目标协方差。然后,我们描述了收敛速度,表明在固定的计算预算下,TM 比 FM 实现更快的收敛速度,从而确立了其在单峰高斯环境中的优势。其次,我们将分析扩展到高斯混合模型,并确定了局部单峰状态,其中采样动态近似于单峰情况,TM 可以优于 FM。当组件均值之间的最小距离增加时,近似误差会减小,这突出了 TM 在模态分离良好的情况下更受欢迎。但是,当目标方差接近零时,每个 TM 更新都会收敛到 FM 更新,并且 TM 的性能优势会减小。总而言之,我们表明,当目标分布具有良好分离的模态和非零方差时,TM 优于 FM。我们通过对高斯分布的受控实验验证了我们的理论结果,并将比较扩展到图像和视频生成中的实际应用。

🔬 方法详解

问题定义:论文旨在解决生成模型中Flow Matching (FM) 方法的局限性。FM虽然被广泛使用,但在某些情况下,Transition Matching (TM) 能够以更少的采样步骤达到更高的生成质量。现有FM方法在目标分布为单峰高斯分布时,会低估目标协方差,导致生成质量下降。此外,对于高斯混合模型,FM在模态分离不明显时表现不佳。因此,需要明确TM优于FM的条件,并解释其内在原因。

核心思路:论文的核心思路是TM通过引入随机差分潜在更新,能够更好地保留目标分布的协方差信息,从而在特定条件下优于FM。具体来说,TM的随机性使得它能够避免FM的确定性更新所带来的偏差,尤其是在目标分布为单峰高斯分布或具有良好分离模态的高斯混合模型时。这种设计使得TM能够更快地收敛到目标分布,并生成更高质量的样本。

技术框架:论文的技术框架主要包括以下几个部分:首先,对FM和TM的数学公式进行推导和分析,明确两种方法的更新机制差异。其次,针对单峰高斯分布,从理论上证明TM的KL散度低于FM。然后,将分析扩展到高斯混合模型,并定义局部单峰状态。最后,通过实验验证理论分析,并在图像和视频生成等实际应用中进行比较。

关键创新:论文最重要的技术创新点在于揭示了TM优于FM的条件,并从理论上解释了其内在原因。具体来说,论文证明了TM在目标分布具有良好分离的模态和非零方差时,能够更好地保留目标协方差信息,从而实现更快的收敛速度和更高的生成质量。此外,论文还提出了局部单峰状态的概念,为理解TM在高斯混合模型中的表现提供了新的视角。

关键设计:论文的关键设计包括:1) 使用KL散度作为评估生成模型性能的指标;2) 针对单峰高斯分布,推导了TM和FM的KL散度公式,并进行比较;3) 针对高斯混合模型,定义了局部单峰状态,并分析了TM在该状态下的表现;4) 通过控制高斯分布的均值和方差,设计了一系列实验,验证了理论分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了理论分析的正确性。在单峰高斯分布实验中,TM的KL散度明显低于FM。在高斯混合模型实验中,当模态分离良好且方差非零时,TM的表现优于FM。此外,在图像和视频生成等实际应用中,TM也取得了更好的效果,例如在生成具有清晰前景和背景的图像时,TM能够生成更清晰的图像。

🎯 应用场景

该研究成果可应用于图像生成、视频生成、音频合成等领域。通过选择合适的生成模型(FM或TM),可以提高生成样本的质量和效率。特别是在需要生成具有清晰分离模态的数据时,TM可能是一个更好的选择。此外,该研究为理解和改进生成模型提供了新的理论基础,有助于推动生成模型的发展。

📄 摘要(原文)

Flow Matching (FM) underpins many state-of-the-art generative models, yet recent results indicate that Transition Matching (TM) can achieve higher quality with fewer sampling steps. This work answers the question of when and why TM outperforms FM. First, when the target is a unimodal Gaussian distribution, we prove that TM attains strictly lower KL divergence than FM for finite number of steps. The improvement arises from stochastic difference latent updates in TM, which preserve target covariance that deterministic FM underestimates. We then characterize convergence rates, showing that TM achieves faster convergence than FM under a fixed compute budget, establishing its advantage in the unimodal Gaussian setting. Second, we extend the analysis to Gaussian mixtures and identify local-unimodality regimes in which the sampling dynamics approximate the unimodal case, where TM can outperform FM. The approximation error decreases as the minimal distance between component means increases, highlighting that TM is favored when the modes are well separated. However, when the target variance approaches zero, each TM update converges to the FM update, and the performance advantage of TM diminishes. In summary, we show that TM outperforms FM when the target distribution has well-separated modes and non-negligible variances. We validate our theoretical results with controlled experiments on Gaussian distributions, and extend the comparison to real-world applications in image and video generation.