Pre-trained Tabular Foundation Models as Versatile Summary Networks for Neural Posterior Estimation
作者: Elliot Pickens, Chiraag Gohel, Sidharth Satya
分类: cs.LG
发布日期: 2026-05-08
💡 一句话要点
提出PFN-NPE框架,利用预训练表格基础模型作为通用摘要网络实现神经后验估计
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经后验估计 基于模拟的推断 表格基础模型 上下文学习 贝叶斯推断 归一化流
📋 核心要点
- SBI中后验估计高度依赖于对模拟观测值的有效摘要提取,传统方法通常需要针对特定任务进行昂贵的端到端训练。
- 提出PFN-NPE框架,利用预训练的TabPFN作为固定摘要网络,通过上下文学习能力直接提取观测特征,无需针对特定模拟器进行微调。
- 实验表明PFN-NPE在多种SBI任务中表现出与现有方法相当甚至更优的性能,证明了预训练模型在科学推断任务中的通用性与模块化潜力。
📝 摘要(中文)
本文研究了将TabPFN作为一种无需训练、模块化的摘要网络,应用于基于模拟的贝叶斯推断(SBI)。TabPFN等表格基础模型在广泛的合成数据生成过程上进行预训练,并通过上下文学习(In-context Learning)在测试时进行适应,这使其成为SBI的理想候选者,因为后验估计通常依赖于学习模拟观测值的有效摘要。我们提出了PFN-NPE:一种通用方案,利用预训练的TabPFN编码器作为模拟器输出的固定摘要网络,并将其与针对特定问题选择的下游推断头相结合。以归一化流作为默认推断头,PFN-NPE在性能上与现有的后验近似方法相当,甚至在某些情况下表现更优。诊断分析表明,TabPFN导出的摘要通常能保留有用的后验位置和边缘信息,但也揭示了其在表示联合后验结构方面的局限性。实验证明,TabPFN可作为跨多种SBI设置的有效摘要网络,且保持了推断网络的模块化与任务相关性。
🔬 方法详解
问题定义:在基于模拟的贝叶斯推断(SBI)中,核心挑战在于如何从复杂的模拟器输出中提取低维、信息丰富的摘要统计量,以准确估计参数后验分布。现有方法往往需要针对特定模拟器进行大规模的端到端训练,计算成本高且泛化能力有限。
核心思路:利用预训练的表格基础模型(TabPFN)作为通用的特征提取器。由于TabPFN在海量合成数据集上进行了预训练,具备强大的上下文学习能力,能够直接将模拟观测值映射为高质量的潜在表示,从而替代传统的手工设计或任务特定的神经网络摘要器。
技术框架:PFN-NPE采用模块化设计,主要分为两个阶段:首先,将模拟器生成的观测数据输入预训练的TabPFN编码器,提取固定维度的摘要向量;其次,将该摘要向量作为输入,馈送至下游的推断头(如归一化流),以学习参数的后验分布。
关键创新:将“预训练模型作为摘要网络”的范式引入SBI领域,实现了推断过程的解耦。与传统方法相比,该方法无需对摘要网络进行任务特定的训练,显著降低了部署门槛,并利用了基础模型在小样本环境下的强泛化能力。
关键设计:该方法将TabPFN的输出层作为特征提取器,保持其权重固定。推断头采用归一化流(Normalizing Flows)以实现灵活的密度估计。诊断分析显示,该架构在捕捉边缘后验分布方面表现出色,但在处理高维联合后验结构时,其表示能力受限于TabPFN的预训练分布覆盖范围。
🖼️ 关键图片
📊 实验亮点
实验结果显示,PFN-NPE在多个基准SBI任务中达到了与现有最先进方法(如基于深度学习的摘要网络)相当的精度。诊断分析证实,TabPFN提取的摘要能有效保留参数的边缘分布信息。尽管在联合后验结构的表示上存在一定局限,但其模块化特性使其在不同模拟器设置下表现出极强的鲁棒性与通用性。
🎯 应用场景
该研究适用于科学发现、复杂系统建模及参数校准等领域,特别是在模拟器计算成本高昂、观测数据有限的场景下。通过利用预训练模型,研究人员可以快速构建SBI工作流,无需从零开始训练复杂的摘要网络,极大地提升了贝叶斯推断在物理学、生物学及经济学模拟中的应用效率。
📄 摘要(原文)
In this work, we study TabPFN as a training-free, modular summary network for simulation-based Bayesian inference (SBI). Tabular foundation models such as TabPFN are pretrained on broad families of synthetic tabular data-generating processes and adapt at test time through in-context learning, making them natural candidates for SBI, where posterior estimation often depends on learning informative summaries of simulated observations. We propose PFN-NPE: a general recipe that uses a pretrained TabPFN encoder as a fixed summary network for simulator outputs, then pairs the resulting summaries with a downstream inference head chosen for the problem. With normalizing flows as the default inference head, PFN-NPE matches established posterior approximation methods and sometimes outperforms them. More importantly, diagnostic probes show that the TabPFN-derived summaries often preserve useful posterior location and marginal information. These analyses also reveal a limitation in that TabPFN-derived summaries may struggle to represent the joint posterior structure even when the marginals are well recovered. Still, our experiments show that TabPFN can serve as an effective summary network across a diverse set of SBI settings, with the inference network left modular and task-dependent.