Data Presentation Over Architecture: Resampling Strategies for Credit Risk Prediction with Tabular Foundation Models
作者: Aditya Tanna, Mitul Solanki, Mohamed Bouadi, Nassim Bouarour, Pratinav Seth, Vinay Kumar Sankarapu
分类: cs.LG, cs.AI
发布日期: 2026-05-18
💡 一句话要点
针对表格基础模型,提出重采样策略优化信贷风险预测中的上下文构建
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 信贷风险预测 表格基础模型 上下文学习 重采样策略 类别不平衡
📋 核心要点
- 信贷违约预测面临类别不平衡、特征异构等挑战,现有表格基础模型对上下文构建敏感。
- 论文提出通过重采样策略优化上下文构建,包括平衡抽样和混合抽样,提升模型性能。
- 实验表明,优化的上下文构建策略比模型架构选择对AUC-ROC的影响更大,显著提升了模型性能。
📝 摘要(中文)
信贷违约预测是一个表格学习问题,具有严重的类别不平衡、异构特征和严格的延迟预算。表格基础模型(TFMs)通过上下文学习来解决这个问题,这使得它们的预测对上下文窗口的构建方式非常敏感。我们在Home Credit和Lending Club数据集上对四个经典模型和五个TFMs进行了基准测试,改变了上下文构建策略(七个选项)和上下文大小(1K到50K)。在两个数据集上,上下文策略的选择比TFM家族的选择更能解释AUC-ROC的方差:平衡和混合抽样比均匀抽样增加3到4个AUC点,并且差距超过了TFMs之间的差异。通过5K到10K个样本的平衡上下文,最强的TFMs达到了在完整数据上训练的经典基线的AUC,同时也恢复了有意义的默认类别召回率,而默认阈值GBDT则无法做到。我们将其视为证据,表明在不平衡的信贷风险环境中,上下文构建而非架构选择是TFMs的主要部署杠杆。
🔬 方法详解
问题定义:论文旨在解决信贷风险预测中,表格基础模型(TFMs)对上下文构建的敏感性问题。现有方法,如均匀抽样,无法有效处理类别不平衡问题,导致模型性能下降,尤其是在违约类别的召回率方面表现不佳。
核心思路:论文的核心思路是通过优化上下文构建策略,即采用重采样方法,来改善TFMs的性能。具体来说,论文探索了平衡抽样和混合抽样等策略,旨在构建一个更具代表性的上下文,从而提高模型对违约风险的预测能力。这种思路强调数据呈现方式的重要性,而非仅仅依赖模型架构的改进。
技术框架:论文的技术框架主要包括以下几个步骤:1)选择合适的表格基础模型(TFMs)作为预测器;2)设计不同的上下文构建策略,包括均匀抽样、平衡抽样和混合抽样等;3)在Home Credit和Lending Club等信贷数据集上进行实验,评估不同上下文构建策略对模型性能的影响;4)分析实验结果,确定最佳的上下文构建策略。
关键创新:论文的关键创新在于强调了上下文构建策略在表格基础模型中的重要性,并证明了通过优化上下文构建,可以显著提高模型在信贷风险预测中的性能。与以往的研究主要关注模型架构的改进不同,该论文将重点放在了数据呈现方式上,揭示了数据质量对模型性能的潜在影响。
关键设计:论文的关键设计包括:1)平衡抽样策略,旨在平衡违约和非违约样本在上下文中的比例;2)混合抽样策略,结合了均匀抽样和平衡抽样的优点;3)对上下文大小进行调整,探索不同上下文大小对模型性能的影响;4)使用AUC-ROC作为评估指标,衡量模型在区分违约和非违约样本方面的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,平衡和混合抽样策略比均匀抽样策略在AUC-ROC上提升了3到4个百分点,且该提升幅度超过了不同TFM模型之间的性能差异。通过5K到10K个样本的平衡上下文,最强的TFMs达到了在完整数据上训练的经典基线的AUC,同时显著提升了违约类别的召回率。
🎯 应用场景
该研究成果可应用于金融信贷风险评估、反欺诈检测等领域。通过优化表格基础模型的上下文构建,可以提高信贷风险预测的准确性和可靠性,降低金融机构的信贷风险,并为信贷决策提供更有效的支持。此外,该研究思路也可推广到其他类别不平衡的表格数据学习问题中。
📄 摘要(原文)
Credit default prediction is a tabular learning problem with severe class imbalance, heterogeneous features, and tight latency budgets. Tabular Foundation Models (TFMs) approach this problem through in-context learning, which makes their predictions sensitive to how the context window is built. We benchmark four classical models and five TFMs on the Home Credit and Lending Club datasets, varying the context-construction strategy (seven options) and the context size (1K to 50K). On both datasets, the choice of context strategy explains more variance in AUC-ROC than the choice of TFM family: balanced and hybrid sampling add 3 to 4 AUC points over uniform sampling, and the gap exceeds the spread between TFMs. With a balanced context of 5K to 10K examples, the strongest TFMs reach the AUC of classical baselines trained on the full data, while also recovering meaningful default-class recall that default-threshold GBDTs do not. We frame this as evidence that context construction, rather than architecture choice, is the primary deployment lever for TFMs in imbalanced credit-risk settings.