STORK: Faster Diffusion And Flow Matching Sampling By Resolving Both Stiffness And Structure-Dependence

作者: Zheng Tan, Weizhen Wang, Andrea L. Bertozzi, Ernest K. Ryu

分类: cs.CV, math.NA

发布日期: 2025-05-30 (更新: 2025-10-01)

🔗 代码/项目: GITHUB

💡 一句话要点

STORK：通过解决刚性和结构依赖性加速扩散模型和Flow Matching模型的采样

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 扩散模型 Flow Matching 快速采样 数值积分 ODE求解

📋 核心要点

扩散模型和Flow Matching模型采样过程计算量大，快速采样方法是研究热点。
STORK方法旨在解决ODE的刚性和对半线性结构的依赖性，从而加速采样过程。
实验证明，STORK方法能够持续提高图像和视频生成的扩散和Flow Matching采样质量。

📝 摘要（中文）

扩散模型（DMs）和Flow Matching模型在图像和视频生成方面表现出了卓越的性能。然而，这些模型在采样过程中需要大量的函数评估次数（NFEs），导致推理成本高昂。因此，开发需要较少NFEs且能保持质量的快速采样方法一直是研究的热点。然而，现有的无训练采样方法无法同时解决两个关键挑战：ODE的刚性（即速度场的非线性）以及对DM ODE的半线性结构的依赖性（这限制了它们直接应用于Flow Matching模型）。在这项工作中，我们引入了稳定化泰勒正交Runge-Kutta（STORK）方法，解决了这两个设计问题。我们证明了STORK能够持续提高图像和视频生成的扩散和Flow Matching采样的质量。

🔬 方法详解

问题定义：扩散模型和Flow Matching模型在图像和视频生成领域取得了显著成果，但采样过程需要大量的函数评估（NFEs），导致计算成本高昂。现有的快速采样方法通常难以同时处理ODE的刚性（速度场的非线性）以及模型对半线性结构的依赖性，限制了其在不同模型上的通用性。

核心思路：STORK方法的核心在于设计一种新的数值积分方案，该方案能够有效地处理ODE的刚性，同时避免对特定模型结构的过度依赖。通过稳定化的泰勒展开和正交Runge-Kutta方法，STORK能够在保证采样质量的前提下，显著减少所需的函数评估次数。

技术框架：STORK方法基于常微分方程（ODE）求解器，用于对扩散模型或Flow Matching模型定义的轨迹进行积分。其主要流程包括：1) 使用稳定化的泰勒展开来近似速度场；2) 利用正交Runge-Kutta方法进行数值积分；3) 在每一步迭代中，根据稳定性和精度要求调整步长。整个框架旨在以更少的步骤逼近目标分布。

关键创新：STORK方法的关键创新在于其稳定化的泰勒展开和正交Runge-Kutta方法的结合。稳定化的泰勒展开能够有效地抑制数值不稳定性，而正交Runge-Kutta方法则能够提高积分精度。与现有方法相比，STORK方法对模型结构的依赖性更小，因此可以更广泛地应用于不同的扩散模型和Flow Matching模型。

关键设计：STORK方法的关键设计包括：1) 稳定化项的选择，用于抑制泰勒展开的高阶项带来的数值不稳定性；2) 正交Runge-Kutta方法的阶数和系数的选择，以平衡精度和计算成本；3) 步长自适应策略，根据局部误差估计动态调整步长，以保证采样质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，STORK方法在图像和视频生成任务中，能够以更少的函数评估次数（NFEs）达到与现有方法相当甚至更高的生成质量。具体而言，在相同的生成质量下，STORK方法可以显著减少所需的NFEs，从而降低计算成本，提高采样效率。代码已开源。

🎯 应用场景

STORK方法可广泛应用于图像生成、视频生成、音频生成等领域，尤其适用于对计算资源有限或对实时性要求较高的场景。通过减少采样所需的函数评估次数，STORK方法可以显著降低推理成本，提高生成效率，从而加速相关应用的部署和普及。未来，该方法有望进一步扩展到其他生成模型和逆问题求解领域。

📄 摘要（原文）

Diffusion models (DMs) and flow-matching models have demonstrated remarkable performance in image and video generation. However, such models require a significant number of function evaluations (NFEs) during sampling, leading to costly inference. Consequently, quality-preserving fast sampling methods that require fewer NFEs have been an active area of research. However, prior training-free sampling methods fail to simultaneously address two key challenges: the stiffness of the ODE (i.e., the non-straightness of the velocity field) and dependence on the semi-linear structure of the DM ODE (which limits their direct applicability to flow-matching models). In this work, we introduce the Stabilized Taylor Orthogonal Runge--Kutta (STORK) method, addressing both design concerns. We demonstrate that STORK consistently improves the quality of diffusion and flow-matching sampling for image and video generation. Code is available at https://github.com/ZT220501/STORK.

STORK: Faster Diffusion And Flow Matching Sampling By Resolving Both Stiffness And Structure-Dependence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理