Curriculum Sampling: A Two-Phase Curriculum for Efficient Training of Flow Matching
作者: Pengwei Sun
分类: cs.LG, cs.CV
发布日期: 2026-03-12
💡 一句话要点
提出课程采样方法,通过两阶段训练策略提升Flow Matching模型的训练效率和生成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Flow Matching 生成模型 时间步采样 课程学习 训练效率 FID指标 图像生成
📋 核心要点
- Flow Matching模型中,时间步采样策略的选择影响训练效率和生成质量,现有方法倾向于静态中间偏置分布。
- 论文提出课程采样方法,通过两阶段采样策略:先中间偏置采样加速收敛,后均匀采样细化边界,解决现有方法的不足。
- 实验结果表明,课程采样在CIFAR-10数据集上,显著提升了FID指标,并加速了模型收敛速度。
📝 摘要(中文)
时间步采样$p(t)$是Flow Matching模型中的核心设计选择,但常见的做法越来越倾向于静态的中间偏置分布(例如,Logit-Normal)。本文表明,这种选择会导致速度与质量之间的权衡:中间偏置采样加速了早期收敛,但渐近保真度不如均匀采样。通过分析每个时间步的训练损失,我们发现了一个U形难度曲线,边界区域附近存在持续误差,这意味着对端点的欠采样会导致细节无法解决。基于此,我们提出了 extbf{课程采样},这是一种两阶段策略,首先使用中间偏置采样进行快速结构学习,然后切换到均匀采样进行边界细化。在CIFAR-10上,课程采样将最佳FID从$3.85$(均匀采样)提高到$3.22$,并在$100$k训练步达到峰值性能,而不是$150$k步。我们的结果表明,时间步采样应该被视为一个演进的课程,而不是一个固定的超参数。
🔬 方法详解
问题定义:Flow Matching模型训练中,如何选择合适的时间步采样策略以平衡训练速度和生成质量是一个关键问题。现有方法,特别是静态中间偏置采样,虽然能加速早期收敛,但会牺牲最终的生成质量,导致模型无法充分学习到数据分布的细节信息。
核心思路:论文的核心思路是将时间步采样视为一个课程,而非固定的超参数。通过动态调整采样策略,先利用中间偏置采样快速学习数据的主要结构,再利用均匀采样细化边界区域,从而在保证训练速度的同时,提升模型的生成质量。
技术框架:课程采样方法包含两个主要阶段:第一阶段采用中间偏置采样(如Logit-Normal分布),侧重于快速捕捉数据分布的整体结构。第二阶段切换为均匀采样,着重于细化数据分布边界区域的细节信息。两个阶段之间通过一个预设的切换点进行平滑过渡。
关键创新:该方法最重要的创新在于将时间步采样策略从静态超参数转变为动态课程,根据训练的进展自适应地调整采样分布。这种两阶段的采样策略能够有效地平衡训练速度和生成质量,避免了单一采样策略的局限性。
关键设计:关键设计包括:1) 确定合适的中间偏置采样分布(例如Logit-Normal分布);2) 选择合适的切换点,即从中间偏置采样切换到均匀采样的训练步数;3) 可以考虑在两个阶段之间引入平滑过渡机制,避免采样分布的突变。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在CIFAR-10数据集上,课程采样方法将最佳FID从均匀采样的3.85提升至3.22,并且在100k训练步时达到峰值性能,相比均匀采样的150k步,训练速度显著提升。这表明课程采样方法能够在保证生成质量的同时,加速模型收敛。
🎯 应用场景
该研究成果可应用于各种生成模型,特别是基于Flow Matching的模型,例如图像生成、音频合成等。通过优化时间步采样策略,可以提升生成模型的训练效率和生成质量,从而在实际应用中获得更好的用户体验和更高的商业价值。此外,该研究思路也可以推广到其他机器学习任务中,例如课程学习、迁移学习等。
📄 摘要(原文)
Timestep sampling $p(t)$ is a central design choice in Flow Matching models, yet common practice increasingly favors static middle-biased distributions (e.g., Logit-Normal). We show that this choice induces a speed--quality trade-off: middle-biased sampling accelerates early convergence but yields worse asymptotic fidelity than Uniform sampling. By analyzing per-timestep training losses, we identify a U-shaped difficulty profile with persistent errors near the boundary regimes, implying that under-sampling the endpoints leaves fine details unresolved. Guided by this insight, we propose \textbf{Curriculum Sampling}, a two-phase schedule that begins with middle-biased sampling for rapid structure learning and then switches to Uniform sampling for boundary refinement. On CIFAR-10, Curriculum Sampling improves the best FID from $3.85$ (Uniform) to $3.22$ while reaching peak performance at $100$k rather than $150$k training steps. Our results highlight that timestep sampling should be treated as an evolving curriculum rather than a fixed hyperparameter.