Faster Inference of Flow-Based Generative Models via Improved Data-Noise Coupling

作者: Aram Davtyan, Leello Tadesse Dadi, Volkan Cevher, Paolo Favaro

分类: cs.LG, cs.CV

发布日期: 2026-03-16

备注: Patched from ICLR2025. Code: https://github.com/araachie/loom-cfm

💡 一句话要点

提出LOOM-CFM，通过跨Minibatch优化数据-噪声耦合加速Flow模型推理。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 条件流匹配 生成模型 最优传输 数据噪声耦合 加速推理

📋 核心要点

现有基于Minibatch OT的CFM方法在大型数据集上受限于Minibatch大小，无法充分优化数据-噪声耦合。
LOOM-CFM通过在训练过程中跨Minibatch保持和优化数据-噪声分配，扩展了Minibatch OT的优化范围。
实验表明，LOOM-CFM在多个数据集上提高了采样速度-质量权衡，并增强了蒸馏初始化和高分辨率合成。

📝 摘要（中文）

条件流匹配(CFM)是一种无需模拟训练连续归一化流的方法，为图像和视频生成等关键任务提供了扩散模型的有效替代方案。CFM在解决这些任务中的性能取决于数据与噪声的耦合方式。最近一种方法使用minibatch最优传输(OT)在每个训练步骤中重新分配噪声-数据对，以简化采样轨迹，从而加速推理。然而，其优化仅限于单个minibatch，限制了其在大型数据集上的有效性。为了解决这个缺点，我们引入了LOOM-CFM(Looking Out Of Minibatch-CFM)，这是一种新方法，通过在训练时间内保持和优化这些跨minibatch的分配来扩展minibatch OT的范围。我们的方法在多个数据集上展示了采样速度-质量权衡方面的一致改进。LOOM-CFM还增强了蒸馏初始化，并支持潜在空间训练中的高分辨率合成。

🔬 方法详解

问题定义：现有的基于条件流匹配（CFM）的生成模型，在训练时依赖于数据和噪声的有效耦合。虽然使用Minibatch最优传输（OT）可以优化这种耦合，但其优化范围仅限于单个Minibatch。这在大规模数据集上会成为瓶颈，因为每个Minibatch的信息有限，无法充分利用全局信息来优化数据-噪声的匹配，导致采样效率受限。

核心思路：LOOM-CFM的核心思路是扩展Minibatch OT的优化范围，使其能够跨越多个Minibatch。具体来说，LOOM-CFM维护一个跨Minibatch的数据-噪声分配方案，并在训练过程中不断优化这个分配方案。通过考虑多个Minibatch的信息，LOOM-CFM可以更有效地学习数据和噪声之间的关系，从而生成更优的采样轨迹，加速推理过程。

技术框架：LOOM-CFM的整体框架仍然基于CFM，但引入了一个额外的模块来管理和优化跨Minibatch的数据-噪声分配。训练过程大致如下：1. 从数据集中采样一个Minibatch。2. 使用Minibatch OT计算当前Minibatch内的数据-噪声分配。3. 将当前Minibatch的分配信息与之前维护的跨Minibatch分配方案进行融合。4. 使用融合后的分配方案训练CFM模型。5. 重复以上步骤。

关键创新：LOOM-CFM的关键创新在于它能够跨Minibatch优化数据-噪声分配。与传统的Minibatch OT方法相比，LOOM-CFM可以利用更多的全局信息来学习数据和噪声之间的关系，从而生成更优的采样轨迹。这种跨Minibatch的优化使得LOOM-CFM能够在大规模数据集上实现更好的性能。

关键设计：LOOM-CFM的关键设计在于如何维护和更新跨Minibatch的数据-噪声分配方案。具体实现细节未知，但可以推测可能使用了某种形式的记忆机制或滑动平均来平滑不同Minibatch之间的分配差异。此外，如何有效地融合当前Minibatch的分配信息与之前维护的分配方案也是一个关键的设计问题。损失函数的设计也需要考虑如何鼓励跨Minibatch分配的一致性和优化采样轨迹。

🖼️ 关键图片

📊 实验亮点

LOOM-CFM在多个数据集上展示了优于现有方法的采样速度-质量权衡。具体性能数据未知，但摘要中提到LOOM-CFM增强了蒸馏初始化，并支持潜在空间训练中的高分辨率合成，表明其在生成质量和训练效率方面均有提升。与基于单个Minibatch OT的方法相比，LOOM-CFM能够利用更多的全局信息，从而生成更优的采样轨迹。

🎯 应用场景

LOOM-CFM可应用于图像生成、视频生成等领域，尤其是在需要快速推理和高质量生成结果的场景下。例如，可以用于实时图像编辑、视频风格迁移、游戏AI等应用。该方法通过提高采样效率，降低了生成模型的计算成本，使其更易于部署在资源受限的设备上，具有广泛的应用前景。

📄 摘要（原文）

Conditional Flow Matching (CFM), a simulation-free method for training continuous normalizing flows, provides an efficient alternative to diffusion models for key tasks like image and video generation. The performance of CFM in solving these tasks depends on the way data is coupled with noise. A recent approach uses minibatch optimal transport (OT) to reassign noise-data pairs in each training step to streamline sampling trajectories and thus accelerate inference. However, its optimization is restricted to individual minibatches, limiting its effectiveness on large datasets. To address this shortcoming, we introduce LOOM-CFM (Looking Out Of Minibatch-CFM), a novel method to extend the scope of minibatch OT by preserving and optimizing these assignments across minibatches over training time. Our approach demonstrates consistent improvements in the sampling speed-quality trade-off across multiple datasets. LOOM-CFM also enhances distillation initialization and supports high-resolution synthesis in latent space training.

Faster Inference of Flow-Based Generative Models via Improved Data-Noise Coupling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理