Correcting Source Mismatch in Flow Matching with Radial-Angular Transport
作者: Fouad Oubari, Mathilde Mougeot
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
提出径向-角度流匹配(RAFM)以解决流匹配中源分布不匹配问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 流匹配 生成模型 重尾分布 径向-角度分解 源分布校正
📋 核心要点
- 传统流匹配方法在高斯源分布假设下存在局限性,无法有效处理重尾或各向异性数据。
- RAFM通过设计径向分布匹配数据、角度分布均匀的源分布,从根本上解决了源分布不匹配的问题。
- 实验结果表明,RAFM在重尾数据上显著优于标准高斯流匹配,且保持了训练过程的简洁性。
📝 摘要(中文)
流匹配通常基于高斯源和欧几里得概率路径构建。然而,对于重尾或各向异性数据,高斯源会在径向分布层面引入结构性不匹配。本文提出了径向-角度流匹配(RAFM),该框架在标准的无模拟流匹配模板中显式地校正了这种源分布不匹配。RAFM使用一个径向分布与数据匹配的源,并且其条件角度分布在球面上是均匀的,从而通过构造消除了高斯径向不匹配。这减少了剩余的传输问题到角度对齐,这自然地导致了由球面测地线插值定义的缩放球面上的条件路径。由此产生的框架产生了针对径向-角度传输量身定制的显式流匹配目标,而无需修改底层确定性训练流程。本文确定了匹配径向源的精确密度,证明了分离高斯径向惩罚的径向-角度KL分解,表征了诱导的目标向量场,并推导了将流匹配误差与生成误差联系起来的稳定性结果。进一步分析了径向定律的经验估计,其中Wasserstein和CDF度量提供了自然的保证。实验表明,RAFM显著优于标准高斯流匹配,并且在保持轻量级确定性训练过程的同时,与最近的非高斯替代方案相比仍具有竞争力。总的来说,RAFM为重尾和极端事件数据的流匹配提供了一个有原则的源和路径设计。
🔬 方法详解
问题定义:现有的流匹配方法通常假设数据来源于高斯分布,并在此基础上构建概率路径。然而,当处理重尾或各向异性数据时,这种高斯假设会导致源分布与真实数据分布之间存在显著的结构性不匹配,尤其是在径向分布上。这种不匹配会降低流匹配模型的性能,影响生成样本的质量。
核心思路:RAFM的核心思路是显式地校正源分布的不匹配。具体来说,RAFM不再使用高斯分布作为源分布,而是设计一种新的源分布,使其径向分布与真实数据的径向分布相匹配,同时保持角度分布在球面上均匀。通过这种方式,RAFM从根本上消除了由于径向分布不匹配而引入的误差。
技术框架:RAFM的整体框架包括以下几个主要步骤:1) 估计真实数据的径向分布;2) 构建一个径向分布与数据匹配、角度分布均匀的源分布;3) 定义基于球面测地线插值的条件概率路径,用于将源分布传输到目标分布;4) 使用标准的流匹配训练流程,训练一个向量场来近似这些概率路径。
关键创新:RAFM最关键的创新在于其源分布的设计。通过将源分布的径向分布与数据匹配,RAFM有效地解决了源分布不匹配的问题。此外,RAFM还提出了基于球面测地线插值的条件概率路径,这使得模型能够更好地处理角度信息,从而提高生成样本的质量。
关键设计:RAFM的关键设计包括:1) 使用Wasserstein距离或CDF距离来评估径向分布的估计质量;2) 定义了径向-角度KL分解,用于量化高斯径向惩罚;3) 推导了将流匹配误差与生成误差联系起来的稳定性结果。这些设计使得RAFM能够更加有效地处理重尾和极端事件数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RAFM在重尾数据集上显著优于标准高斯流匹配。具体来说,RAFM在生成样本的质量和多样性方面都取得了显著提升,并且在保持训练过程简洁性的同时,与最近提出的非高斯流匹配方法相比,具有竞争力。这些结果验证了RAFM在处理源分布不匹配问题方面的有效性。
🎯 应用场景
RAFM可应用于各种涉及重尾或各向异性数据的生成建模任务,例如:金融风险建模、气候科学中的极端天气事件预测、生物信息学中的基因表达分析等。该方法能够提升生成模型的精度和可靠性,从而为相关领域的决策提供更可靠的依据。此外,RAFM的轻量级确定性训练过程使其易于部署和应用。
📄 摘要(原文)
Flow Matching is typically built from Gaussian sources and Euclidean probability paths. For heavy-tailed or anisotropic data, however, a Gaussian source induces a structural mismatch already at the level of the radial distribution. We introduce \textit{Radial--Angular Flow Matching (RAFM)}, a framework that explicitly corrects this source mismatch within the standard simulation-free Flow Matching template. RAFM uses a source whose radial law matches that of the data and whose conditional angular distribution is uniform on the sphere, thereby removing the Gaussian radial mismatch by construction. This reduces the remaining transport problem to angular alignment, which leads naturally to conditional paths on scaled spheres defined by spherical geodesic interpolation. The resulting framework yields explicit Flow Matching targets tailored to radial--angular transport without modifying the underlying deterministic training pipeline.We establish the exact density of the matched-radial source, prove a radial--angular KL decomposition that isolates the Gaussian radial penalty, characterize the induced target vector field, and derive a stability result linking Flow Matching error to generation error. We further analyze empirical estimation of the radial law, for which Wasserstein and CDF metrics provide natural guarantees. Empirically, RAFM substantially improves over standard Gaussian Flow Matching and remains competitive with recent non-Gaussian alternatives while preserving a lightweight deterministic training procedure. Overall, RAFM provides a principled source-and-path design for Flow Matching on heavy-tailed and extreme-event data.