One Operator for Many Densities: Amortized Approximation of Conditioning by Neural Operators
作者: Panos Tsimpos, Edoardo Calvello, Ayoub Belhadji, Nicholas H. Nelsen
分类: stat.ML, cs.LG, math.NA
发布日期: 2026-05-07
💡 一句话要点
提出神经算子学习条件概率,解决不确定性建模中的条件概率泛化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 概率条件化 神经算子 条件概率 贝叶斯推理 不确定性建模
📋 核心要点
- 现有方法直接学习固定联合分布的条件分布,泛化能力有限,难以适应多种联合分布。
- 论文提出学习一个通用的条件算子,将任意联合密度映射到条件密度,从而实现跨不同联合分布的泛化。
- 证明了神经算子可以任意精度逼近条件算子,并通过实验验证了该框架在高斯混合模型上的有效性。
📝 摘要(中文)
概率条件化关注的是在给定随机变量$Y$的情况下,识别随机变量$X$的分布。它是科学和工程应用中的基石,在这些应用中,对不确定性进行建模至关重要。传统上,机器学习通过直接学习固定联合分布的条件分布来解决这个问题。本文介绍了一种新颖的视角:我们建议通过识别一个将任何联合密度映射到其条件密度的算子来解决条件化问题,从而分摊联合-条件对的计算。我们证明了条件化算子可以通过神经算子以任意精度逼近。我们的证明依赖于建立条件化算子在合适密度类上的连续性的新结果。最后,我们使用神经算子学习高斯混合的条件映射,说明了我们框架的前景。这项工作为通用、分摊的概率条件化方法(例如贝叶斯推理的基础模型)提供了理论基础。
🔬 方法详解
问题定义:论文旨在解决概率条件化问题,即给定随机变量Y的情况下,确定随机变量X的条件分布。现有的机器学习方法通常针对特定的联合分布学习条件分布,缺乏泛化能力。如果联合分布发生变化,则需要重新训练模型,计算成本高昂。因此,如何学习一个能够适应多种联合分布的通用条件算子是本研究要解决的核心问题。
核心思路:论文的核心思想是将条件化过程视为一个算子,该算子可以将任何联合概率密度函数映射到对应的条件概率密度函数。通过学习这个算子,模型可以对不同的联合分布进行条件化,而无需为每个联合分布单独训练模型。这种方法类似于函数逼近,但目标是逼近一个概率密度函数到另一个概率密度函数的映射。
技术框架:论文提出的技术框架主要包含以下几个阶段:1)定义条件算子,将概率条件化问题转化为算子学习问题。2)证明条件算子的连续性,为使用神经网络逼近该算子提供理论依据。3)利用神经算子(Neural Operator)来逼近条件算子,神经算子是一种可以学习无限维函数映射的神经网络。4)使用高斯混合模型作为实验数据,训练和评估神经算子的性能。
关键创新:论文最重要的创新点在于将概率条件化问题转化为算子学习问题,并证明了条件算子可以通过神经算子进行逼近。这种方法允许模型学习一个通用的条件化函数,而不仅仅是针对特定联合分布的条件分布。与传统的条件分布学习方法相比,该方法具有更好的泛化能力和更高的效率。
关键设计:论文中使用DeepONet作为神经算子的具体实现,DeepONet由一个branch net和一个trunk net组成,分别用于编码输入函数和输出函数的坐标。损失函数选择KL散度,用于衡量预测的条件概率密度函数与真实条件概率密度函数之间的差异。实验中,使用高斯混合模型生成训练数据,并通过调整高斯分量的参数来控制联合分布的多样性。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
论文通过在高斯混合模型上进行实验,验证了神经算子学习条件算子的有效性。实验结果表明,训练后的神经算子能够准确地预测条件概率密度函数,并且具有良好的泛化能力,能够适应不同的高斯混合模型参数。尽管论文中没有提供与其他基线的定量比较,但结果表明该框架具备解决实际问题的潜力。
🎯 应用场景
该研究成果可应用于诸多需要进行不确定性建模的领域,如贝叶斯推理、逆问题求解、数据同化等。例如,在科学计算中,可以通过学习通用的条件算子来加速贝叶斯后验分布的推断。此外,该方法有望发展成贝叶斯推理的基础模型,为更复杂的概率建模任务提供支持。
📄 摘要(原文)
Probabilistic conditioning is concerned with the identification of a distribution of a random variable $X$ given a random variable $Y$. It is a cornerstone of scientific and engineering applications where modeling uncertainty is key. This problem has traditionally been addressed in machine learning by directly learning the conditional distribution of a fixed joint distribution. This paper introduces a novel perspective: we propose to solve the conditioning problem by identifying a single operator that maps any joint density to its conditional, thus amortizing over joint-conditional pairs. We establish that the conditioning operator can be approximated to arbitrary accuracy by neural operators. Our proof relies on new results establishing continuity of the conditioning operator over suitable classes of densities. Finally, we learn the conditioning map for a class of Gaussian mixtures using neural operators, illustrating the promise of our framework. This work provides the theoretical underpinnings for general-purpose, amortized methods for probabilistic conditioning, such as foundation models for Bayesian inference.