Inference-Time Compute Scaling For Flow Matching

📄 arXiv: 2510.17786v1 📥 PDF

作者: Adam Stecklov, Noah El Rimawi-Fine, Mathieu Blanchette

分类: cs.LG

发布日期: 2025-10-20


💡 一句话要点

针对Flow Matching,提出保持线性插值的推理时计算缩放方法,提升生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Flow Matching 推理时计算缩放 线性插值 图像生成 蛋白质生成

📋 核心要点

  1. 现有Flow Matching推理时计算缩放方法,如Kim等人(2025)的方法,牺牲了FM原有的高效线性采样特性。
  2. 本文提出一种新的推理时计算缩放方法,该方法在Flow Matching采样过程中保持线性插值,保证采样效率。
  3. 实验表明,该方法在图像生成和蛋白质生成任务上,均能随着推理计算量的增加,持续提升样本质量。

📝 摘要(中文)

本文研究了Flow Matching (FM) 的推理时计算缩放问题。尽管推理时分配更多计算资源已在大型语言模型和扩散模型图像生成中提升了样本质量,但针对FM的推理时缩放方法仍未被充分探索。虽然Kim等人(2025)也研究了该问题,但他们使用非线性方差保持(VP)插值器替代线性插值器,牺牲了FM高效且直接的采样特性。此外,FM的推理时计算缩放仅应用于图像生成等视觉任务。本文提出了一种新的FM推理时缩放程序,该程序在采样过程中保留了线性插值。在图像生成和蛋白质无条件生成(据我们所知,首次)上的评估表明:I) 样本质量随着推理计算量的增加而持续提高;II) Flow Matching推理时缩放可以应用于科学领域。

🔬 方法详解

问题定义:Flow Matching (FM) 是一种生成模型,它通过学习一个连续的向量场来将数据分布映射到噪声分布。现有的FM推理时计算缩放方法,例如Kim等人(2025)的方法,通过引入非线性插值器来增加计算量,但牺牲了FM原有的高效线性采样特性,增加了计算复杂度。因此,如何在不牺牲FM线性采样特性的前提下,有效利用推理时的额外计算资源,提升生成质量,是本文要解决的核心问题。

核心思路:本文的核心思路是在保持FM线性插值的基础上,通过增加采样步骤来利用推理时的额外计算资源。具体来说,就是在原始的线性路径上,增加更多的中间点,从而更精细地逼近真实的向量场,提高生成质量。这种方法避免了引入非线性插值器,保留了FM的优点。

技术框架:该方法的核心在于对Flow Matching的采样过程进行改进。标准的Flow Matching采样过程是从噪声分布出发,沿着由向量场定义的线性路径,逐步迭代到数据分布。本文提出的方法通过增加采样步骤,即在原始的线性路径上插入更多的中间点,从而更精确地逼近真实的向量场。整体流程与标准的Flow Matching相似,只是在采样阶段进行了改进。

关键创新:本文最重要的技术创新在于提出了一种在Flow Matching中保持线性插值的推理时计算缩放方法。与现有方法相比,该方法避免了引入非线性插值器,保留了FM高效的线性采样特性。同时,通过增加采样步骤,有效地利用了推理时的额外计算资源,提升了生成质量。

关键设计:关键设计在于采样步骤的增加。具体来说,假设原始的采样步骤为N,那么增加计算量后的采样步骤可以设置为k*N,其中k>1。在每个采样步骤中,仍然使用FM学习到的向量场来更新样本。通过调整k的值,可以控制推理时计算量的增加幅度。此外,损失函数和网络结构与标准的Flow Matching保持一致。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的方法在图像生成和蛋白质生成任务上均取得了显著的性能提升。具体来说,随着推理计算量的增加,生成图像的FID (Fréchet Inception Distance) 指标持续下降,表明生成质量不断提高。在蛋白质生成任务上,该方法首次实现了Flow Matching在科学领域的应用,并取得了良好的生成效果,验证了该方法的有效性和通用性。

🎯 应用场景

该研究成果可广泛应用于图像生成、蛋白质生成等领域。在图像生成方面,可以提升生成图像的质量和逼真度。在蛋白质生成方面,可以用于设计具有特定功能的蛋白质,加速药物研发和生物工程等领域的发展。该方法具有良好的通用性和可扩展性,有望在更多科学领域得到应用。

📄 摘要(原文)

Allocating extra computation at inference time has recently improved sample quality in large language models and diffusion-based image generation. In parallel, Flow Matching (FM) has gained traction in language, vision, and scientific domains, but inference-time scaling methods for it remain under-explored. Concurrently, Kim et al., 2025 approach this problem but replace the linear interpolant with a non-linear variance-preserving (VP) interpolant at inference, sacrificing FM's efficient and straight sampling. Additionally, inference-time compute scaling for flow matching has only been applied to visual tasks, like image generation. We introduce novel inference-time scaling procedures for FM that preserve the linear interpolant during sampling. Evaluations of our method on image generation, and for the first time (to the best of our knowledge), unconditional protein generation, show that I) sample quality consistently improves as inference compute increases, and II) flow matching inference-time scaling can be applied to scientific domains.