Log-Concave Coupling for Sampling Neural Net Posteriors
作者: Curtis McDonald, Andrew R Barron
分类: stat.ML, cs.IT, cs.LG
发布日期: 2024-07-26
备注: This research was presented at the International Symposium on Information Theory (ISIT). Athens, Greece, July 11, 2024. The material was also presented in the 2024 Shannon Lecture
💡 一句话要点
提出基于对数凹耦合的采样算法,用于解决单隐层神经网络后验分布采样问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 贝叶斯神经网络 后验采样 对数凹耦合 MCMC Langevin动力学
📋 核心要点
- 神经网络权重后验分布采样因其多模态性而具有挑战,传统方法难以有效探索整个参数空间。
- 论文提出一种基于对数凹耦合的采样算法,通过引入辅助变量将复杂的后验分布转化为易于采样的对数凹分布。
- 该方法利用Langevin动力学和快速混合MCMC方法,加速辅助变量的采样,从而高效地获得神经元权重的后验样本。
📝 摘要(中文)
本文提出了一种针对单隐层神经网络的采样算法。该算法基于一种称为贪婪贝叶斯(Greedy Bayes)的递归贝叶斯后验方法。由于神经元权重向量 $w$ 的贝叶斯后验分布具有多模态性,因此对其进行采样具有挑战性。本文的算法通过将 $w$ 的后验密度与辅助随机变量 $ξ$ 耦合来解决这个问题。结果表明,给定辅助随机变量的神经元权重逆条件分布 $w|ξ$ 是对数凹的。在后验分布的构建中,我们允许在先验的选择上具有一定的自由度。特别地,对于具有适当小方差的高斯先验,$ξ$ 的边缘密度被证明在所有维度 $d$ 上都是严格对数凹的。对于单位 $\ell_1$ 球上的均匀先验,有证据表明 $ξ$ 的密度在足够大的 $d$ 下也是严格对数凹的。辅助随机变量 $ξ$ 的边缘密度的 score 通过 $w|ξ$ 上的期望确定,因此可以通过各种快速混合马尔可夫链蒙特卡罗方法计算。此外,$ξ$ 的 score 的计算允许通过随机扩散(Langevin 动力学)采样 $ξ$,其漂移函数由该 score 构建。通过这种动力学,Bakry 和 Emery 开创的信息论方法表明,当 $ξ$ 的密度确实是严格对数凹时,可以快速获得 $ξ$ 的准确采样。之后,再从 $w|ξ$ 中抽取一个样本,即可得到神经元权重 $w$,其边缘分布来自所需的后验分布。
🔬 方法详解
问题定义:论文旨在解决单隐层神经网络中神经元权重向量后验分布的采样问题。由于后验分布通常是多模态的,传统的采样方法,如标准MCMC,可能难以有效地探索整个参数空间,导致采样效率低下,无法准确反映后验分布的特性。
核心思路:论文的核心思路是通过引入一个辅助随机变量 $ξ$,将原始的复杂后验分布转化为一个更容易采样的形式。具体来说,通过精心设计的耦合方式,使得在给定辅助变量 $ξ$ 的条件下,神经元权重 $w$ 的条件后验分布 $w|ξ$ 具有对数凹性。对数凹分布具有良好的性质,可以使用高效的采样方法进行采样。
技术框架:该算法主要包含以下几个阶段: 1. 构建后验分布:基于贪婪贝叶斯方法,递归地构建一系列贝叶斯后验分布。 2. 引入辅助变量并耦合:引入辅助随机变量 $ξ$,并与神经元权重 $w$ 的后验分布进行耦合,得到联合分布。 3. 证明条件后验的对数凹性:证明在给定 $ξ$ 的条件下,$w$ 的条件后验分布 $w|ξ$ 是对数凹的。 4. 采样辅助变量:使用Langevin动力学或快速混合MCMC方法采样辅助变量 $ξ$。 5. 采样神经元权重:在得到 $ξ$ 的样本后,从条件后验分布 $w|ξ$ 中采样神经元权重 $w$。
关键创新:该论文的关键创新在于提出了基于对数凹耦合的采样方法。通过引入辅助变量,将原本复杂的多模态后验分布转化为易于采样的对数凹分布,从而提高了采样效率和准确性。与传统的MCMC方法相比,该方法能够更有效地探索参数空间,并获得更准确的后验样本。
关键设计: * 先验选择:论文允许在先验的选择上具有一定的自由度,并证明了对于具有适当小方差的高斯先验和单位 $\ell_1$ 球上的均匀先验,辅助变量 $ξ$ 的边缘密度在一定条件下是严格对数凹的。 * Langevin动力学:使用Langevin动力学采样辅助变量 $ξ$,其漂移函数由 $ξ$ 的边缘密度的 score 构建。该 score 可以通过在 $w|ξ$ 上的期望来计算,并可以使用快速混合MCMC方法进行估计。
📊 实验亮点
论文证明了在特定先验条件下,辅助变量的边缘密度具有严格的对数凹性,这为高效采样提供了理论保障。通过Langevin动力学和快速混合MCMC方法,可以快速准确地采样辅助变量,进而获得神经元权重的后验样本。虽然论文中没有给出具体的实验数据,但其理论分析表明,该方法在采样效率和准确性方面具有显著优势。
🎯 应用场景
该研究成果可应用于贝叶斯神经网络的训练和推理,特别是在需要对模型不确定性进行量化的场景中。例如,在医疗诊断、金融风险评估等领域,准确的后验分布采样可以提供更可靠的预测和决策依据。此外,该方法还可以推广到其他具有复杂后验分布的机器学习模型中,具有广泛的应用前景。
📄 摘要(原文)
In this work, we present a sampling algorithm for single hidden layer neural networks. This algorithm is built upon a recursive series of Bayesian posteriors using a method we call Greedy Bayes. Sampling of the Bayesian posterior for neuron weight vectors $w$ of dimension $d$ is challenging because of its multimodality. Our algorithm to tackle this problem is based on a coupling of the posterior density for $w$ with an auxiliary random variable $ξ$. The resulting reverse conditional $w|ξ$ of neuron weights given auxiliary random variable is shown to be log concave. In the construction of the posterior distributions we provide some freedom in the choice of the prior. In particular, for Gaussian priors on $w$ with suitably small variance, the resulting marginal density of the auxiliary variable $ξ$ is proven to be strictly log concave for all dimensions $d$. For a uniform prior on the unit $\ell_1$ ball, evidence is given that the density of $ξ$ is again strictly log concave for sufficiently large $d$. The score of the marginal density of the auxiliary random variable $ξ$ is determined by an expectation over $w|ξ$ and thus can be computed by various rapidly mixing Markov Chain Monte Carlo methods. Moreover, the computation of the score of $ξ$ permits methods of sampling $ξ$ by a stochastic diffusion (Langevin dynamics) with drift function built from this score. With such dynamics, information-theoretic methods pioneered by Bakry and Emery show that accurate sampling of $ξ$ is obtained rapidly when its density is indeed strictly log-concave. After which, one more draw from $w|ξ$, produces neuron weights $w$ whose marginal distribution is from the desired posterior.