Sampling with Adaptive Variance for Multimodal Distributions

📄 arXiv: 2411.15220v1 📥 PDF

作者: Björn Engquist, Kui Ren, Yunan Yang

分类: cs.LG, math.NA, stat.CO, stat.ML

发布日期: 2024-11-20

备注: 26 pages, 6 figures


💡 一句话要点

提出自适应方差采样算法,加速多峰分布的采样过程。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自适应采样 多峰分布 朗之万动力学 Wasserstein梯度流 无导数优化

📋 核心要点

  1. 传统采样方法在处理多峰分布时效率较低,尤其是在势函数非凸的情况下,容易陷入局部极小值。
  2. 论文提出一种自适应采样算法,通过调整扩散系数和向量场,模拟加权 Wasserstein 梯度流,加速收敛。
  3. 实验表明,该方法在非凸势的吉布斯分布采样中,比传统过阻尼朗之万动力学具有更快的收敛速度。

📝 摘要(中文)

本文提出并分析了一类用于有界域上多峰分布的自适应采样算法,该算法在结构上与经典的过阻尼朗之万动力学相似。我们首先证明,这类具有自适应扩散系数和向量场的线性动力学可以被解释和分析为当前分布与目标吉布斯分布之间 Kullback-Leibler (KL) 散度的加权 Wasserstein 梯度流,这直接导致 KL 散度和 χ^2 散度的指数收敛,其速率取决于加权 Wasserstein 度量和吉布斯势。然后,我们表明,该动力学的无导数版本可用于在没有吉布斯势梯度信息的情况下进行采样,并且对于具有非凸势的吉布斯分布,该方法可以实现比经典过阻尼朗之万动力学快得多的收敛速度。非凸势局部极小值之间的平均跃迁时间的比较进一步突出了无导数动力学在采样方面的更好效率。

🔬 方法详解

问题定义:论文旨在解决多峰分布的采样问题,特别是在目标分布具有非凸势函数时,传统采样方法(如过阻尼朗之万动力学)收敛速度慢,容易陷入局部极小值的问题。这些方法需要目标分布的梯度信息,且难以有效地在不同的峰之间跃迁。

核心思路:论文的核心思路是将采样过程建模为加权 Wasserstein 空间中的梯度流。通过自适应地调整扩散系数和向量场,使得采样过程能够更快地逼近目标分布,并更容易地克服局部极小值的障碍。这种自适应调整基于当前分布与目标分布之间的 KL 散度。

技术框架:该方法基于线性动力学,其扩散系数和向量场是自适应的。整体框架可以概括为:1) 定义一个与过阻尼朗之万动力学相似的线性动力学系统;2) 将该动力学系统解释为加权 Wasserstein 空间中的 KL 散度梯度流;3) 推导出该动力学系统的无导数版本,使其可以在没有目标分布梯度信息的情况下进行采样;4) 分析该动力学系统的收敛性。

关键创新:最重要的创新点在于提出了自适应的扩散系数和向量场,使得采样过程能够更好地适应目标分布的形状。与传统的朗之万动力学相比,该方法不需要手动调整步长,而是根据当前分布与目标分布的差异自动调整采样策略。此外,无导数版本的动力学使得该方法可以应用于目标分布梯度信息难以获取的场景。

关键设计:关键设计包括:1) 自适应扩散系数的选取,使其能够反映当前分布与目标分布之间的差异;2) 向量场的构建,使其能够引导采样点向目标分布的高概率区域移动;3) 无导数版本的实现,通过估计目标分布的梯度来避免直接计算梯度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出方法的有效性。在具有非凸势的吉布斯分布采样中,该方法比传统的过阻尼朗之万动力学具有更快的收敛速度。局部极小值之间的平均跃迁时间的比较进一步表明,该方法能够更有效地探索目标分布。

🎯 应用场景

该研究成果可应用于贝叶斯推断、分子动力学模拟、全局优化等领域。在这些领域中,目标分布通常是多峰的,且梯度信息难以获取。该方法能够提高采样效率,从而加速相关问题的求解,例如药物发现、材料设计等。

📄 摘要(原文)

We propose and analyze a class of adaptive sampling algorithms for multimodal distributions on a bounded domain, which share a structural resemblance to the classic overdamped Langevin dynamics. We first demonstrate that this class of linear dynamics with adaptive diffusion coefficients and vector fields can be interpreted and analyzed as weighted Wasserstein gradient flows of the Kullback--Leibler (KL) divergence between the current distribution and the target Gibbs distribution, which directly leads to the exponential convergence of both the KL and $χ^2$ divergences, with rates depending on the weighted Wasserstein metric and the Gibbs potential. We then show that a derivative-free version of the dynamics can be used for sampling without gradient information of the Gibbs potential and that for Gibbs distributions with nonconvex potentials, this approach could achieve significantly faster convergence than the classical overdamped Langevin dynamics. A comparison of the mean transition times between local minima of a nonconvex potential further highlights the better efficiency of the derivative-free dynamics in sampling.