Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules
作者: Jonas Landsgesell, Pascal Knoll
分类: cs.LG, cs.AI
发布日期: 2026-03-09
💡 一句话要点
利用Proper Scoring Rules评估表格数据PFN的概率预测,提升分布回归性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 分布回归 Proper Scoring Rules CRPS 概率预测 先验数据拟合网络 模型评估
📋 核心要点
- 现有表格数据回归基准侧重于均方误差等指标,导致模型优化偏向点估计,忽略了概率预测的质量。
- 论文提出使用Proper Scoring Rules,特别是连续排序概率分数(CRPS),来评估分布回归中概率预测的优劣。
- 研究表明,评分规则的选择会影响模型的归纳偏置,因此建议微调或使用可提示的表格基础模型。
📝 摘要(中文)
先验数据拟合网络(PFNs),如TabPFN和TabICL,通过表格数据的上下文学习,彻底改变了表格深度学习。这些模型旨在作为分类和回归设置的基础模型,并有望大大简化实际部署,因为它们的性能是前所未有的(就均方误差或$R^2$而言,当在TabArena或TALENT等常见基准上测量时)。然而,我们看到了当前回归设置基准的一个重要弱点:当前的基准侧重于使用诸如(根)均方误差或$R^2$之类的指标来评估胜率和性能。因此,这些排行榜(隐式和显式地)推动研究人员优化机器学习流程,从而获得良好的均值估计。主要问题是这种方法仅评估点估计(即均值估计器,它是与均方误差损失相关的贝叶斯估计器)。在本文中,我们讨论了应用适当的评分规则来评估分布回归中概率预测的优劣。我们还建议使用概率回归的指标来增强常见的机器学习基准。为了改善现状并使机器学习社区了解概率回归的评分规则,我们提倡在概率回归的基准中使用连续排序概率分数(CRPS)。然而,我们还说明了评分规则的选择会改变训练模型的归纳偏差。因此,我们提倡微调或可提示的表格基础模型。
🔬 方法详解
问题定义:论文旨在解决表格数据回归任务中,现有评估方法仅关注点估计精度,而忽略概率预测质量的问题。现有方法,如基于均方误差的评估,会引导模型优化均值预测,无法有效评估模型对数据分布的预测能力。
核心思路:论文的核心思路是引入Proper Scoring Rules来评估概率预测的质量。Proper Scoring Rules能够量化预测分布与真实分布之间的差异,从而更全面地评估模型的性能。通过优化基于Proper Scoring Rules的损失函数,可以训练出能够更准确预测数据分布的模型。
技术框架:论文主要关注如何将Proper Scoring Rules应用于表格数据基础模型(如TabPFN和TabICL)的评估和训练中。具体框架包括:1) 选择合适的Proper Scoring Rule,如CRPS;2) 将CRPS作为评估指标,用于衡量模型预测分布的质量;3) 将CRPS作为损失函数,用于微调或训练表格数据基础模型,使其能够更好地预测数据分布。
关键创新:论文的关键创新在于将Proper Scoring Rules引入表格数据回归的评估体系中,并强调了评分规则选择对模型归纳偏置的影响。这使得研究人员能够更全面地评估和优化表格数据回归模型,从而提高模型的泛化能力和鲁棒性。
关键设计:论文建议使用连续排序概率分数(CRPS)作为评估指标和损失函数。CRPS能够衡量预测分布与真实分布之间的差异,并且具有良好的数学性质。此外,论文还强调了微调或使用可提示的表格基础模型的重要性,以便根据不同的评分规则调整模型的归纳偏置。
🖼️ 关键图片
📊 实验亮点
论文强调了使用CRPS等Proper Scoring Rules评估表格数据回归模型的重要性,并指出评分规则的选择会影响模型的归纳偏置。这为未来的研究提供了新的方向,即如何设计更有效的评分规则和模型训练方法,以提高表格数据回归模型的性能。
🎯 应用场景
该研究成果可应用于金融风险评估、医疗诊断、销售预测等领域,在这些领域中,不仅需要预测一个点值,还需要对预测的不确定性进行量化。通过使用Proper Scoring Rules评估和优化模型,可以提高预测的可靠性和实用性,为决策提供更全面的信息。
📄 摘要(原文)
Prior-Data Fitted Networks (PFNs), such as TabPFN and TabICL, have revolutionized tabular deep learning by leveraging in-context learning for tabular data. These models are meant as foundation models for classification and regression settings and promise to greatly simplify deployment in practical settings because their performance is unprecedented (in terms of mean squared error or $R^2$, when measured on common benchmarks like TabArena or TALENT). However, we see an important weakness of current benchmarks for the regression setting: the current benchmarks focus on evaluating win rates and performance using metrics like (root) mean squared error or $R^2$. Therefore, these leaderboards (implicitly and explicitly) push researchers to optimize for machine learning pipelines which elicit a good mean value estimate. The main problem is that this approach only evaluates a point estimate (namely the mean estimator which is the Bayes estimator associated with the mean squared error loss). In this article we discuss the application of proper scoring rules for evaluating the goodness of probabilistic forecasts in distributional regression. We also propose to enhance common machine learning benchmarks with metrics for probabilistic regression. To improve the status quo and make the machine learning community aware of scoring rules for probabilistic regression, we advocate to use the continuous ranked probability score (CRPS) in benchmarks for probabilistic regression. However, we also illustrate that the choice of the scoring rule changes the inductive bias of the trained model. We, therefore, advocate for finetuning or promptable tabular foundation models.