EigenVI: score-based variational inference with orthogonal function expansions

📄 arXiv: 2410.24054v1 📥 PDF

作者: Diana Cai, Chirag Modi, Charles C. Margossian, Robert M. Gower, David M. Blei, Lawrence K. Saul

分类: stat.ML, cs.LG, stat.CO

发布日期: 2024-10-31

备注: 25 pages, 9 figures. Advances in Neural Information Processing Systems (NeurIPS), 2024


💡 一句话要点

提出EigenVI以解决黑箱变分推断中的高效性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 黑箱变分推断 正交函数展开 特征值问题 贝叶斯模型 非高斯分布

📋 核心要点

  1. 现有的黑箱变分推断方法在处理复杂分布时效率低下,尤其是在高维空间中,往往需要迭代优化。
  2. EigenVI通过正交函数展开构建变分近似,利用特征值问题简化优化过程,从而提高了推断效率和准确性。
  3. 实验结果显示,EigenVI在多种贝叶斯模型的后验分布上表现优于现有的高斯黑箱变分推断方法,提升了推断的准确性。

📝 摘要(中文)

本文提出EigenVI,一种基于特征值的黑箱变分推断方法。EigenVI通过正交函数展开构建变分近似,对于$ ext{R}^D$上的分布,最低阶项提供高斯变分近似,而高阶项则系统性地建模非高斯性。这些近似既灵活又简单,能够计算低阶矩并进行采样。EigenVI还可以通过不同的正交函数族建模其他类型的随机变量。通过最小化目标分布的Fisher散度的随机估计,EigenVI计算最优的变分近似,优化过程简化为求解最小特征值问题,从而避免了许多其他黑箱变分推断算法所需的迭代梯度优化。实验表明,EigenVI在多种目标分布上比现有高斯黑箱变分推断方法更为准确。

🔬 方法详解

问题定义:本文旨在解决黑箱变分推断中的效率和准确性问题。现有方法通常依赖于迭代优化,容易受到学习率和超参数的影响,导致性能不稳定。

核心思路:EigenVI的核心思想是通过正交函数展开构建变分近似,最低阶项提供高斯近似,而高阶项则用于建模复杂的非高斯分布。这种方法使得变分推断既灵活又简单。

技术框架:EigenVI的整体架构包括构建正交函数展开、计算变分近似以及通过最小特征值问题优化。主要模块包括正交函数选择、Fisher散度计算和优化过程。

关键创新:EigenVI的主要创新在于通过求解最小特征值问题来优化变分近似,避免了传统方法中复杂的梯度优化过程。这一设计显著提高了推断效率。

关键设计:在EigenVI中,选择适当的正交函数族是关键设计之一。此外,损失函数基于Fisher散度的随机估计,确保了变分近似与目标分布的匹配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EigenVI在处理多种贝叶斯模型的后验分布时,准确性显著高于现有的高斯黑箱变分推断方法,具体提升幅度达到XX%(具体数据未知)。

🎯 应用场景

EigenVI在贝叶斯推断、机器学习和统计建模等领域具有广泛的应用潜力。其高效的变分推断能力可以帮助研究人员更好地处理复杂的后验分布,推动相关领域的研究进展。

📄 摘要(原文)

We develop EigenVI, an eigenvalue-based approach for black-box variational inference (BBVI). EigenVI constructs its variational approximations from orthogonal function expansions. For distributions over $\mathbb{R}^D$, the lowest order term in these expansions provides a Gaussian variational approximation, while higher-order terms provide a systematic way to model non-Gaussianity. These approximations are flexible enough to model complex distributions (multimodal, asymmetric), but they are simple enough that one can calculate their low-order moments and draw samples from them. EigenVI can also model other types of random variables (e.g., nonnegative, bounded) by constructing variational approximations from different families of orthogonal functions. Within these families, EigenVI computes the variational approximation that best matches the score function of the target distribution by minimizing a stochastic estimate of the Fisher divergence. Notably, this optimization reduces to solving a minimum eigenvalue problem, so that EigenVI effectively sidesteps the iterative gradient-based optimizations that are required for many other BBVI algorithms. (Gradient-based methods can be sensitive to learning rates, termination criteria, and other tunable hyperparameters.) We use EigenVI to approximate a variety of target distributions, including a benchmark suite of Bayesian models from posteriordb. On these distributions, we find that EigenVI is more accurate than existing methods for Gaussian BBVI.