Amortized Energy-Based Bayesian Inference

📄 arXiv: 2605.15407v1 📥 PDF

作者: Hojjat Kaveh, Ricardo Baptista, Andrew M. Stuart

分类: math.NA, cs.AI

发布日期: 2026-05-14

备注: 25 pages, 10 figures


💡 一句话要点

提出基于能量的摊销贝叶斯推断方法,加速非线性反问题求解。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 贝叶斯推断 非线性反问题 摊销推断 能量距离 传输映射

📋 核心要点

  1. 传统贝叶斯推断方法在处理大量观测数据时计算成本高昂,难以满足实时性要求。
  2. 论文提出一种基于传输映射的摊销贝叶斯推断方法,通过学习观测依赖的映射来近似后验分布。
  3. 实验结果表明,该方法能够有效捕获后验分布的结构特征,并显著提升后验采样的速度。

📝 摘要(中文)

本文研究了非线性反问题的摊销贝叶斯推断,该场景下仅能获取参数和观测联合分布的样本。传统方法如马尔可夫链蒙特卡洛(MCMC)需要为每个观测求解新的推断问题,当推断需要重复多次时,计算成本可能过高。我们提出了一种基于传输映射的方法,该方法学习一个依赖于观测的映射,将参考测度推送到近似后验分布。通过最小化真实后验和学习到的前推分布之间的平均能量距离目标来训练该映射。这种公式是无似然的,只需要联合样本,并避免了密度评估、可逆性约束和雅可比行列式计算。对于具有高斯先验的函数空间反问题,我们将传输映射参数化为恒等映射加上先验Cameron-Martin空间中的扰动,保持了相对于先验的绝对连续性。在无限维设置中,该映射使用神经算子表示。我们在一个有限维非线性反问题以及多孔介质流动和地震反演中出现的两个PDE约束反问题上说明了该方法。结果表明,学习到的传输捕获了后验结构,包括多模态和主导模式,同时能够为新的观测快速进行后验采样。

🔬 方法详解

问题定义:论文旨在解决非线性反问题中的贝叶斯推断问题,特别是在仅能获取参数和观测的联合分布样本,且需要对大量观测数据进行快速推断的场景下。传统方法,如MCMC,需要为每个新的观测数据重新运行推断过程,计算量巨大,难以满足实际应用的需求。现有方法的痛点在于计算效率低,无法实现快速的后验采样。

核心思路:论文的核心思路是学习一个参数化的传输映射,该映射能够将一个简单的参考分布(如高斯分布)推送到近似的后验分布。这个映射是观测数据相关的,因此可以通过学习一次映射,然后将其应用于不同的观测数据,从而实现摊销推断,显著降低计算成本。核心在于将复杂的后验推断问题转化为学习一个合适的映射函数。

技术框架:整体框架包含以下几个主要步骤:1) 收集参数和观测的联合样本;2) 定义一个参数化的传输映射,通常基于神经网络或神经算子;3) 定义一个损失函数,用于衡量学习到的前推分布与真实后验分布之间的差异,这里采用能量距离;4) 使用优化算法(如梯度下降)训练传输映射,使其能够将参考分布推送到近似后验分布;5) 对于新的观测数据,使用学习到的传输映射从参考分布中采样,得到近似的后验样本。

关键创新:最重要的技术创新点在于使用能量距离作为损失函数,避免了密度评估和雅可比行列式计算,使得该方法成为一种无似然方法,适用于难以获得似然函数的问题。此外,对于函数空间的反问题,论文将传输映射参数化为恒等映射加上Cameron-Martin空间中的扰动,保证了前推分布相对于先验分布的绝对连续性。使用神经算子处理无限维问题也是一个创新点。

关键设计:关键设计包括:1) 能量距离的选取,它避免了密度估计,适用于无似然推断;2) 传输映射的参数化,特别是对于函数空间问题,使用Cameron-Martin空间中的扰动保证了理论上的合理性;3) 神经算子的选择和训练,用于处理无限维问题。具体的网络结构和优化算法的选择会根据具体问题进行调整。

📊 实验亮点

实验结果表明,该方法在有限维非线性反问题以及多孔介质流动和地震反演等PDE约束反问题上均表现良好。学习到的传输映射能够有效地捕获后验分布的结构特征,包括多模态和主导模式。该方法能够为新的观测数据快速生成后验样本,显著提升了推断效率,但具体性能提升的数值未在摘要中给出。

🎯 应用场景

该研究成果可广泛应用于需要快速贝叶斯推断的非线性反问题领域,例如地球物理勘探、医学图像重建、材料科学中的参数估计、以及其他涉及复杂物理过程建模的领域。通过加速后验采样,可以更高效地进行不确定性量化和决策分析,具有重要的实际应用价值和潜在的科学影响。

📄 摘要(原文)

We consider amortized Bayesian inference for nonlinear inverse problems in settings where only samples from the joint distribution of parameters and observations are available. Classical methods such as Markov chain Monte Carlo require solving a new inference problem for each observation, which can be computationally prohibitive when inference must be repeated many times. We propose a transport-based approach that learns an observation-dependent map pushing forward a reference measure to approximate the posterior distribution. The map is trained by minimizing an averaged energy-distance objective between the true posterior and the learned pushforward. This formulation is likelihood-free, requiring only joint samples, and avoids density evaluation, invertibility constraints, and Jacobian determinant computations. For function-space inverse problems with Gaussian priors, we parameterize the transport map as the identity plus a perturbation in the Cameron-Martin space of the prior, preserving absolute continuity with respect to the prior. In infinite-dimensional settings, the map is represented using neural operators. We illustrate the method on a finite-dimensional nonlinear inverse problem and two PDE-constrained inverse problems arising in porous medium flow and seismic inversion. The results show that the learned transport captures posterior structure, including multimodality and dominant modes, while enabling fast posterior sampling for new observations.