A Quantitative Approximation Framework for Flow Distillation in Diffusion Models
作者: Weiguo Gao, Ming Li, Lei Shi, Hanfei Zhou
分类: stat.ML, cs.LG
发布日期: 2026-06-02
💡 一句话要点
提出定量近似框架以解决扩散模型中的流蒸馏问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 流蒸馏 误差传播 轨迹蒸馏 深度学习 高斯混合 稳定性分析
📋 核心要点
- 现有的扩散模型在低噪声多模态环境中,局部近似误差容易被放大,导致采样质量下降。
- 论文提出了一种定量近似框架,通过分析流映射组合下的误差传播来解决轨迹蒸馏问题。
- 实验表明,采用该框架的模型在端到端相对均方误差上减少了51.9%,显著提升了采样性能。
📝 摘要(中文)
本文开发了一种定量近似框架用于扩散蒸馏,将少步采样视为在学习的流映射组合下的误差传播。我们重点研究概率流ODE的轨迹蒸馏,表明在低噪声多模态环境中,局部近似误差可能被显著放大。通过在可解析的高斯混合奥恩斯坦-乌伦贝克设置中,我们分离了两个核心难点:近似时间依赖的得分场和控制由概率流ODE的时间积分雅可比界限所主导的动态放大。我们证明了ReLU-ReQU网络在时间上均匀地近似高斯混合得分的构造性L^p(p_t)保证,并且深度和宽度在目标精度上以多对数方式扩展。基于这些估计,我们证明深度残差组合有效近似长时间运输,全球误差由稳定性放大因子控制,并识别出一类一阶蒸馏在结构上不利的Lipschitz不匹配区域。实验结果支持了我们的预测,使用8个段相比均匀网格减少了高达51.9%的端到端相对均方误差。
🔬 方法详解
问题定义:本文旨在解决扩散模型中流蒸馏的近似问题,现有方法在低噪声多模态情况下局部误差放大,影响采样质量。
核心思路:通过构建定量近似框架,分析误差传播,重点关注概率流ODE的轨迹蒸馏,以此提高采样精度和稳定性。
技术框架:整体框架包括两个主要模块:一是近似时间依赖得分场,二是控制动态放大。通过ReLU-ReQU网络实现得分场的均匀近似,并利用深度残差网络进行长时间运输的有效近似。
关键创新:提出了构造性L^p(p_t)保证,证明了深度残差组合在长时间运输中的有效性,识别出Lipschitz不匹配区域,提供了新的理论视角。
关键设计:网络结构采用ReLU-ReQU,深度和宽度与目标精度呈多对数关系,损失函数设计考虑了稳定性放大因子,确保了模型在不同时间尺度上的稳定性。
📊 实验亮点
实验结果显示,采用该定量近似框架的模型在端到端相对均方误差上减少了51.9%,相比于传统均匀网格方法,显著提升了采样性能,验证了理论预测的有效性。
🎯 应用场景
该研究的潜在应用领域包括图像生成、视频合成及其他需要高质量样本生成的任务。通过提高扩散模型的采样精度,能够在实际应用中实现更高的效率和更好的结果,推动相关领域的发展。
📄 摘要(原文)
We develop a quantitative approximation framework for diffusion distillation, viewing few-step sampling as error propagation under compositions of learned flow maps. Focusing on trajectory distillation for the probability-flow ODE, we show that local approximation errors can be strongly amplified in low-noise multimodal regimes, where the underlying dynamics become stiff. In an analytically tractable Gaussian-mixture Ornstein--Uhlenbeck setting, we separate two core difficulties: approximating the time-dependent score field and controlling the dynamical amplification governed by the time-integrated Jacobian bound of the probability-flow ODE. On the approximation side, we prove constructive L^p(p_t) guarantees showing that ReLU--ReQU networks approximate the Gaussian-mixture score uniformly over time, with depth and width scaling polylogarithmically in the target accuracy and explicitly with the mixture geometry. On the stability side, we derive an explicit bound L(t) for the spatial Lipschitz constant of the probability-flow velocity and convert it into a flow map stability estimate governed by \int_s^t L(u)\,du, making late-time amplification in stiff regimes computable. Building on these estimates, we prove that deep residual compositions efficiently approximate the long-horizon transport, with global error controlled by the stability amplification factor, and identify a Lipschitz-mismatch regime in which one-step distillation is structurally unfavorable. The resulting theory yields a stability-balanced non-uniform time grid obtained by uniform partitioning in the cumulative stability coordinate. Experiments support the prediction and reduce end-to-end relative MSE by up to 51.9\% with 8 segments compared with uniform grids.