Coreset-Induced Conditional Velocity Flow Matching
作者: Xiao Wang, Zihua She, Jianxi Su
分类: stat.ML, cs.LG
发布日期: 2026-05-13
💡 一句话要点
提出Coreset诱导的条件速度流匹配(CCVFM),提升生成模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成模型 流模型 Coreset 条件速度流匹配 少步生成
📋 核心要点
- 现有分层流匹配模型在将噪声转化为复杂目标分布时效率较低,需要从头学习整个映射。
- CCVFM利用目标数据的coreset构建闭式替代源分布,从而简化了内部流的学习过程。
- 实验表明,CCVFM在MNIST、CIFAR-10等数据集上实现了有竞争力的少步生成效果。
📝 摘要(中文)
本文提出Coreset诱导的条件速度流匹配(CCVFM),这是一种通过数据驱动的源分布增强分层修正流的生成模型。分层流匹配模型化速度空间中的完整条件速度定律,但其内部流需要从头开始将各向同性高斯噪声传输到多模态目标速度分布。我们的关键观察是,这个内部源可以被从目标数据的coreset构建的闭式替代物所取代。CCVFM首先使用熵Sinkhorn coreset将目标压缩成加权原子,并将它们提升为高斯混合。由此产生的条件速度定律是一个闭式高斯混合,可以在没有学习到的神经采样器的情况下进行采样。然后,从这个精确的替代源训练的轻量级校正流,细化剩余的替代到目标的残差,而不是学习整个噪声到数据的映射。我们证明了在显式压缩假设下,替代传输成本等于目标-替代Wasserstein距离,而噪声-源类似物具有维度比例下界。我们进一步描述了直接替代源训练目标的条件二阶矩,并表明当替代条件定律在均值和协方差上接近真实条件速度定律时,其源依赖的超额很小。在MNIST、CIFAR-10、ImageNet-32和CelebA-HQ上的实验表明,在匹配的架构下,所提出的方法实现了有竞争力的少步生成。
🔬 方法详解
问题定义:现有的分层流匹配模型在生成复杂数据分布时,需要从各向同性的高斯噪声开始,学习一个完整的噪声到数据的映射。这种方式效率较低,尤其是在目标分布是多模态的情况下,内部流需要花费大量精力来处理复杂的转换。
核心思路:CCVFM的核心思路是使用目标数据的coreset来构建一个闭式(closed-form)的替代源分布,从而避免从噪声开始学习整个映射。Coreset是原始数据的一个小的、具有代表性的子集,可以近似原始数据的分布。通过将coreset提升为高斯混合,可以得到一个更容易处理的源分布,从而简化了流模型的学习过程。
技术框架:CCVFM的整体架构包含以下几个主要步骤: 1. Coreset构建:使用熵Sinkhorn算法从目标数据中提取coreset,得到一组加权原子。 2. 源分布构建:将coreset中的加权原子提升为高斯混合,作为替代源分布。 3. 校正流训练:训练一个轻量级的校正流,用于细化替代源分布到目标分布的残差。 4. 生成:从替代源分布中采样,然后通过校正流进行 refinement,得到最终的生成结果。
关键创新:CCVFM的关键创新在于使用coreset来构建替代源分布。与传统的从噪声开始学习整个映射的方式相比,这种方法可以显著降低学习难度,提高生成效率。此外,CCVFM还提供了一些理论分析,证明了替代传输成本与目标-替代Wasserstein距离之间的关系,以及替代条件定律的性质。
关键设计: * 熵Sinkhorn Coreset: 使用熵正则化的Sinkhorn算法来选择coreset,保证coreset的代表性。 * 高斯混合源分布: 将coreset中的每个原子提升为一个高斯分布,然后将这些高斯分布混合起来,形成替代源分布。 * 轻量级校正流: 使用一个参数量较小的神经网络来学习替代源分布到目标分布的残差,降低计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CCVFM在MNIST、CIFAR-10、ImageNet-32和CelebA-HQ等数据集上取得了有竞争力的少步生成效果。在匹配的架构下,CCVFM能够以更少的步骤生成高质量的图像,证明了其在生成模型方面的有效性。具体的性能数据和与其他基线的对比结果在论文中进行了详细展示。
🎯 应用场景
CCVFM可应用于图像生成、音频生成、分子生成等领域。通过使用coreset构建替代源分布,可以显著提高生成模型的效率和质量,尤其是在处理复杂、多模态的数据分布时。该方法还可以用于数据压缩和降维,通过coreset来近似原始数据,从而减少存储和计算成本。
📄 摘要(原文)
We propose Coreset-Induced Conditional Velocity Flow Matching (CCVFM), a generative model that augments hierarchical rectified flow with a data-informed source distribution. Hierarchical flow matching models the full conditional velocity law in velocity space, but its inner flow is asked to transport isotropic Gaussian noise to a multimodal target velocity distribution from scratch. Our key observation is that this inner source can be replaced by a closed-form surrogate built from a coreset of the target. CCVFM first compresses the target into weighted atoms using an entropic Sinkhorn coreset and lifts them to a Gaussian mixture. The induced conditional velocity law is then a closed-form Gaussian mixture that can be sampled without a learned neural sampler. A lightweight correction flow, trained from this exact surrogate source, then refines the remaining surrogate-to-target residual rather than learning an entire noise-to-data map. We prove that the surrogate transport cost equals the target--surrogate Wasserstein gap under an explicit compression assumption, whereas the noise-source analogue has a dimension-scale lower bound. We further characterize the conditional second moment of the direct surrogate-source training target and show that its source-dependent excess is small when the surrogate conditional law is close to the true conditional velocity law in mean and covariance. Empirically, on MNIST, CIFAR-10, ImageNet-32, and CelebA-HQ, the proposed method reaches competitive few-step generation under matched architectures.