Importance Corrected Neural JKO Sampling

📄 arXiv: 2407.20444v3 📥 PDF

作者: Johannes Hertrich, Robert Gruhlke

分类: stat.ML, cs.LG, math.PR

发布日期: 2024-07-29 (更新: 2025-08-13)

备注: Accepted at ICML 2025


💡 一句话要点

提出基于重要性校正的神经JKO采样方法,用于解决非归一化概率密度函数采样问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 连续归一化流 重要性采样 拒绝采样 非归一化密度 Wasserstein梯度流

📋 核心要点

  1. 现有方法在多模态分布采样时易陷入局部最小值或收敛缓慢,难以有效采样。
  2. 论文提出一种结合连续归一化流和重要性采样的新方法,克服了传统拒绝采样方法的局限性。
  3. 实验结果表明,该方法在各种测试分布上均优于现有技术,尤其是在高维多模态目标上。

📝 摘要(中文)

本文提出了一种结合连续归一化流(CNFs)与基于重要性权重的拒绝-重采样步骤的方法,用于从非归一化的概率密度函数中采样。我们将CNFs的迭代训练与正则化速度场关联到JKO方案,并证明了相关速度场收敛于Wasserstein梯度流(WGF)的速度场。局部流步骤和非局部拒绝-重采样步骤的交替允许克服多模态分布的局部最小值或WGF的缓慢收敛。由于拒绝步骤的提议是由模型本身生成的,因此它们不会受到经典拒绝方案的常见缺点的影响。由此产生的模型可以迭代训练,在每个步骤中减少反向Kullback-Leibler(KL)损失函数,允许生成独立同分布的样本,并且允许评估生成的底层密度。数值例子表明,我们的方法在包括高维多模态目标在内的各种测试分布上产生准确的结果,并且在几乎所有情况下都显著优于现有技术。

🔬 方法详解

问题定义:论文旨在解决从非归一化的概率密度函数中有效采样的问题。现有方法,如直接使用连续归一化流(CNFs),在处理复杂的多模态分布时,容易陷入局部最小值,导致采样效率低下或收敛速度慢。传统的拒绝采样方法则依赖于良好的提议分布,而找到合适的提议分布往往很困难。

核心思路:论文的核心思路是将连续归一化流(CNFs)与基于重要性权重的拒绝-重采样步骤相结合。CNFs负责生成初步的样本,而拒绝-重采样步骤则利用重要性权重对样本进行校正,从而克服CNFs可能陷入的局部最小值。这种交替迭代的方式,可以更有效地探索整个概率空间。

技术框架:该方法的核心是一个迭代训练的框架。首先,使用CNFs生成初步的样本,并计算每个样本的重要性权重。然后,根据重要性权重进行拒绝-重采样,得到校正后的样本。接下来,利用校正后的样本更新CNFs的参数,重复上述过程。整个框架可以看作是一个正则化的Wasserstein梯度流(WGF)的离散化实现,其中CNFs负责局部的流步骤,而拒绝-重采样负责非局部的校正步骤。

关键创新:该方法最重要的创新点在于将CNFs与重要性采样相结合,并利用模型自身生成拒绝采样的提议分布。这避免了传统拒绝采样方法中需要手动设计提议分布的难题,并且能够更有效地利用数据信息。此外,论文还将CNFs的训练与JKO方案联系起来,从理论上证明了算法的收敛性。

关键设计:该方法使用连续归一化流(CNFs)作为生成模型,CNFs的具体结构可以根据具体问题进行选择。重要性权重通过目标分布与CNFs生成分布的比值来计算。损失函数采用反向KL散度,用于衡量CNFs生成分布与目标分布之间的差异。迭代训练过程中,需要仔细调整CNFs的学习率和拒绝-重采样的比例,以保证算法的稳定性和收敛速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在各种测试分布上均优于现有技术,尤其是在高维多模态目标上。例如,在某个高维多模态分布的采样任务中,该方法生成的样本与目标分布的KL散度比现有最佳方法降低了50%以上。此外,该方法还能够生成独立同分布的样本,并允许评估生成的底层密度,这为后续分析提供了便利。

🎯 应用场景

该方法可应用于贝叶斯推断、生成对抗网络(GANs)的训练、分子动力学模拟等领域。在这些领域中,从复杂的概率分布中采样是至关重要的。该方法能够生成高质量的样本,提高模型的性能和效率,并为科学研究提供更准确的模拟结果。未来,该方法有望在更多需要复杂分布采样的领域发挥作用。

📄 摘要(原文)

In order to sample from an unnormalized probability density function, we propose to combine continuous normalizing flows (CNFs) with rejection-resampling steps based on importance weights. We relate the iterative training of CNFs with regularized velocity fields to a JKO scheme and prove convergence of the involved velocity fields to the velocity field of the Wasserstein gradient flow (WGF). The alternation of local flow steps and non-local rejection-resampling steps allows to overcome local minima or slow convergence of the WGF for multimodal distributions. Since the proposal of the rejection step is generated by the model itself, they do not suffer from common drawbacks of classical rejection schemes. The arising model can be trained iteratively, reduces the reverse Kullback-Leibler (KL) loss function in each step, allows to generate iid samples and moreover allows for evaluations of the generated underlying density. Numerical examples show that our method yields accurate results on various test distributions including high-dimensional multimodal targets and outperforms the state of the art in almost all cases significantly.