ScoringBench: A Benchmark for Evaluating Tabular Foundation Models with Proper Scoring Rules

📄 arXiv: 2603.29928v1 📥 PDF

作者: Jonas Landsgesell, Pascal Knoll

分类: cs.AI

发布日期: 2026-03-31

🔗 代码/项目: GITHUB


💡 一句话要点

提出ScoringBench,利用Proper Scoring Rules评估表格型预训练模型,提升决策质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格型数据 预训练模型 Proper Scoring Rules 基准测试 概率预测 模型评估 风险评估

📋 核心要点

  1. 现有表格型模型评估主要依赖点估计指标,忽略了预测分布尾部的性能,在高风险决策场景下存在缺陷。
  2. ScoringBench通过引入一系列Proper Scoring Rules,更全面地评估表格型预训练模型的概率预测质量。
  3. 实验表明,模型排名依赖于所选的评分规则,不存在通用的最优预训练目标,评估指标选择至关重要。

📝 摘要(中文)

本文提出了ScoringBench,一个开放的基准测试平台,旨在通过Proper Scoring Rules(如CRPS、CRLS、区间得分、能量得分、加权CRPS和Brier Score)以及标准点估计指标,全面评估表格型预训练模型(如TabPFN和TabICL)。现有的回归基准测试主要依赖RMSE和R2等点估计指标,忽略了模型在分布尾部的性能,这对于金融和临床研究等高风险决策领域至关重要。研究结果表明,模型排名受所选评分规则的影响,且不存在普遍最优的预训练目标。因此,对于极端事件敏感的应用,评估指标的选择与数据本身同样重要。ScoringBench已开源,并提供在线排行榜。

🔬 方法详解

问题定义:现有表格型预训练模型,如TabPFN和TabICL,虽然能够生成完整的预测分布,但在回归任务的评估中,主要采用RMSE、R2等点估计指标。这些指标无法充分反映模型在预测分布尾部的性能,尤其是在金融、临床研究等对极端事件敏感的领域,这种评估方式存在局限性。因此,需要一种更全面的评估方法,能够准确衡量模型预测分布的质量。

核心思路:本文的核心思路是引入Proper Scoring Rules作为评估指标,这些指标能够更准确地衡量概率预测的质量,并对预测分布的准确性和校准性进行评估。通过使用多种不同的Proper Scoring Rules,可以更全面地了解模型在不同场景下的表现,从而避免单一指标可能带来的偏差。

技术框架:ScoringBench是一个开放的基准测试平台,它包含了一系列回归任务数据集,并提供了一套完整的评估流程。该流程包括:1) 使用表格型预训练模型(如TabPFN、TabICL)对数据集进行预测;2) 使用多种Proper Scoring Rules(如CRPS、CRLS、区间得分、能量得分、加权CRPS和Brier Score)以及标准点估计指标(如RMSE、R2)对预测结果进行评估;3) 将评估结果在排行榜上进行展示,方便用户比较不同模型的性能。

关键创新:ScoringBench的关键创新在于引入了Proper Scoring Rules作为表格型预训练模型的评估指标。与传统的点估计指标相比,Proper Scoring Rules能够更全面地衡量概率预测的质量,并对预测分布的准确性和校准性进行评估。此外,ScoringBench还提供了一个开放的基准测试平台,方便研究人员比较不同模型的性能,并促进表格型预训练模型的发展。

关键设计:ScoringBench的关键设计包括:1) 选择了多种具有代表性的Proper Scoring Rules,以覆盖不同的评估维度;2) 提供了易于使用的评估工具,方便研究人员进行实验;3) 构建了一个透明的排行榜,方便用户比较不同模型的性能,并通过Git Pull Request维护排行榜,保证透明性和可追溯性。此外,论文还研究了使用不同的scoring rule objectives对realTabPFNv2.5进行微调的影响。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用不同的Proper Scoring Rules进行评估会导致不同的模型排名,这说明单一的评估指标可能无法全面反映模型的性能。此外,实验还发现,不存在普遍最优的预训练目标,不同的预训练目标在不同的评估指标下表现不同。例如,针对realTabPFNv2.5使用不同的scoring rule objectives进行微调,结果表明模型性能依赖于所选的评分规则。

🎯 应用场景

ScoringBench可应用于金融风险评估、临床诊断预测、供应链管理等领域,帮助决策者更准确地评估风险,做出更明智的决策。通过更全面地评估表格型预训练模型的预测能力,ScoringBench能够提升高风险决策场景下的决策质量,减少因模型预测不准确而造成的损失。未来,ScoringBench可以扩展到更多领域,并集成更多先进的表格型预训练模型。

📄 摘要(原文)

Tabular foundation models such as TabPFN and TabICL already produce full predictive distributions yet prevailing regression benchmarks evaluate them almost exclusively via point estimate metrics RMSE R2 These aggregate measures often obscure model performance in the tails of the distribution a critical deficit for high stakes decision making in domains like finance and clinical research where asymmetric risk profiles are the norm We introduce ScoringBench an open benchmark that computes a comprehensive suite of proper scoring rules like CRPS CRLS Interval Score Energy Score weighted CRPS and Brier Score alongside standard point metrics providing a richer picture of probabilistic forecast quality We evaluate realTabPFNv2.5 fine tuned with different scoring rule objectives and TabICL relative to untuned realTabPFNv2.5 across a suite of regression benchmarks Our results confirm that model rankings depend on the chosen scoring rule and that no single pretraining objective is universally optimal This demonstrates that for applications sensitive to extreme events the choice of evaluation metric is as much a domain specific requirement as the data itself ScoringBench is available at https://github.com/jonaslandsgesell/ScoringBench A live preview of the current leaderboard is available at https://scoringbench.bolt.host The leaderboard is maintained via git pull requests to ensure transparency traceability agility and reproducibility