Structured Coupling for Flow Matching

📄 arXiv: 2605.07676v1 📥 PDF

作者: Xavier Sumba, Carles Balsells-Rodas, Yingzhen Li

分类: cs.LG

发布日期: 2026-05-08


💡 一句话要点

提出结构化耦合流匹配(SCFM),通过联合学习结构化潜变量与连续传输映射,实现生成质量与表征可解释性的平衡。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流匹配 潜变量模型 表征学习 生成模型 变分推理 特征解耦

📋 核心要点

  1. 现有流匹配方法多采用非结构化源分布,难以捕捉数据内在的潜在结构,导致模型缺乏可解释性。
  2. SCFM通过引入结构化潜变量与外源噪声,将潜变量建模与连续传输映射联合优化,实现结构与生成的协同。
  3. 实验验证了SCFM在保持高质量生成的同时,有效提升了聚类与特征解耦等下游任务的表征学习能力。

📝 摘要(中文)

标准流匹配(Flow Matching)虽然具有良好的扩展性,但通常依赖于非结构化的源分布,限制了其学习可解释潜在结构的能力。相比之下,潜变量模型虽然能捕捉结构,却往往以牺牲生成质量为代价。本文提出了结构化耦合流匹配(SCFM),这是一个将流匹配与结构化潜变量表示学习相结合的协作框架。通过在源分布中引入结构化潜变量和外源噪声,SCFM 能够联合学习结构化先验(通过潜变量建模)和连续传输映射(通过流匹配)。该方法利用共享的时间依赖识别网络,同时进行潜变量模型的变分推理和中间时刻的流速度估计。这不仅构建了一个结构化且无条件的无模拟流模型,还使潜变量模型能够辅助流采样。实验表明,SCFM 在保持与流匹配相当的生成质量的同时,在聚类、解耦等无监督表征学习任务中表现出色,证明了在不牺牲生成保真度的前提下学习有意义结构的可行性。

🔬 方法详解

问题定义:现有流匹配模型在生成高质量样本时,往往忽略了数据分布的潜在结构,导致模型生成的样本难以被解释或用于下游表征学习任务,而传统的潜变量模型又难以达到流匹配的生成保真度。

核心思路:SCFM的核心思想是将流匹配的连续传输过程与变分推理的结构化先验学习进行耦合。通过在源分布中显式引入结构化潜变量,使流模型在学习从噪声到数据的映射时,同时学习数据的潜在语义结构。

技术框架:整体架构包含一个共享的时间依赖识别网络,该网络同时承担两个任务:一是执行潜变量模型的变分推理,二是估计流匹配过程中的中间时刻速度场。模型通过联合优化流匹配损失与变分下界(ELBO)实现端到端训练。

关键创新:最重要的创新在于提出了“结构化耦合”机制,通过共享网络参数将生成任务与表征学习任务紧密绑定,使得潜变量模型不仅能辅助流采样,还能在无监督环境下提取具有物理意义的特征。

关键设计:模型采用了时间依赖的识别网络架构,将外源噪声与结构化潜变量注入源分布。损失函数由流匹配的向量场回归损失与变分推理损失加权组成,确保了生成保真度与表征结构化的双重优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,SCFM在保持与标准流匹配相当的生成质量(FID指标)的同时,在无监督聚类和特征解耦任务中表现出显著优势。特别是在复杂数据集上,SCFM能够学习到更具语义信息的潜在空间,证明了其在生成保真度与表征学习能力之间实现了有效的权衡。

🎯 应用场景

SCFM适用于需要高保真生成且同时要求特征可解释性的领域。例如,在医学影像分析中,它可用于生成合成数据并同时进行病灶聚类;在复杂系统建模中,可用于解耦潜在动力学特征,提升生成模型在科学发现与数据增强任务中的实际应用价值。

📄 摘要(原文)

Standard flow matching scales well but typically relies on an unstructured source distribution, limiting its ability to learn interpretable latent structure. Latent-variable models, by contrast, capture structure but often sacrifice generative quality. We bridge this gap by proposing Structured Coupling for Flow Matching (SCFM), a cooperative framework that augments flow matching with structured latent representation learning. By introducing structured latent variables and exogenous noise into the source, SCFM jointly learns a structured prior (via latent variable modeling) and a continuous transport map (via flow matching). It uses a shared time-dependent recognition network for both latent variable model variational inference and intermediate-time flow velocity estimation. This yields a structurally informed yet unconditional, simulation-free flow model, where the latent variable model can also assist flow sampling. Empirically, SCFM facilitates unsupervised latent representation learning for clustering, disentanglement and downstream tasks, while remaining competitive with flow matching in sample quality, showing that meaningful structure can be learned without sacrificing generative fidelity.