V4FinBench: Benchmarking Tabular Foundation Models, LLMs, and Standard Methods on Corporate Bankruptcy Prediction

📄 arXiv: 2605.10896v1 📥 PDF

作者: Marcin Kostrzewa, Sebastian Tomczak, Roman Furman, Anna Poberezhna, Michał Furgała, Oleksii Furman, Maciej Zięba

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出大规模金融破产预测基准V4FinBench,评估表格基础模型与大语言模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金融破产预测 表格基础模型 大语言模型 类别不平衡 金融风险管理 TabPFN QLoRA微调

📋 核心要点

  1. 现有破产预测数据集规模偏小且受限于付费墙,难以支撑大规模深度学习模型的训练与评估。
  2. 构建了包含百万级记录的V4FinBench基准,涵盖多时域预测与复杂的财务困境评估指标。
  3. 实验表明TabPFN在长时域预测中具备竞争优势,且该基准具备良好的跨数据集迁移能力。

📝 摘要(中文)

企业破产预测是一项高风险金融任务,面临严重的类别不平衡与多时域预测挑战。现有公开数据集规模较小(6,000至80,000条记录),且高质量数据多受限于付费墙。为此,本文提出了V4FinBench,包含维谢格拉德集团(V4)经济体2006-2021年间超过一百万条公司年度记录,涵盖131个财务与非财务特征、六个预测时域,以及综合衡量偿付能力、盈利能力和流动性的困境标准。该基准旨在评估表格模型与基础模型在真实类别不平衡(正样本率0.19%-0.36%)下的表现。研究对比了标准表格基线、微调后的TabPFN及QLoRA微调的Llama-3-8B。结果显示,在不平衡感知微调下,TabPFN在长时域预测中表现优于梯度提升树;而Llama-3-8B在ROC-AUC指标上普遍落后。此外,在外部数据集上的验证表明,V4FinBench预训练的TabPFN具有良好的跨域迁移能力。

🔬 方法详解

问题定义:企业破产预测面临极度的数据不平衡(正样本极少)和多时域预测需求。现有研究多依赖小规模数据集,导致模型难以泛化,且缺乏针对表格基础模型(Tabular Foundation Models)与大语言模型(LLMs)在金融场景下的系统性评估。

核心思路:通过构建大规模、高质量的金融数据集V4FinBench,引入真实世界的财务困境定义,并对比传统梯度提升树、表格基础模型(TabPFN)与大语言模型(Llama-3-8B),探索不同架构在处理金融表格数据时的有效性与局限性。

技术框架:研究流程包括数据清洗与特征工程(131个特征)、基于不同预测时域的样本划分、针对不平衡数据的微调策略,以及在V4FinBench与外部美国破产数据集上的交叉验证评估。

关键创新:首次在百万级金融数据集上系统性对比了TabPFN与LLM的性能;证明了TabPFN通过不平衡感知微调,在长时域预测中能超越传统梯度提升算法,并验证了金融领域知识的跨区域迁移性。

关键设计:采用了QLoRA技术对Llama-3-8B进行高效微调;在模型训练中引入了针对极度不平衡数据的损失函数优化,并设计了综合偿付、盈利与流动性的复合困境标签,确保预测结果符合金融业务逻辑。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,在不平衡感知微调下,TabPFN在长时域预测的F1-score和ROC-AUC指标上均达到或超过了梯度提升树(Gradient Boosting)。相比之下,Llama-3-8B在所有时域的ROC-AUC表现均弱于梯度提升树。此外,V4FinBench预训练的TabPFN在外部美国破产数据集上表现优于原始模型,证实了该基准捕捉到了具有普适性的金融困境结构特征。

🎯 应用场景

该研究直接服务于金融风险管理领域,可应用于银行信贷审批、企业信用评级、投资组合风险评估及监管机构的早期预警系统。其构建的大规模基准为金融科技领域开发更鲁棒的预测模型提供了标准化的评估平台,有助于提升金融机构对潜在破产风险的识别精度与前瞻性。

📄 摘要(原文)

Corporate bankruptcy prediction is a high-stakes financial task characterized by severe class imbalance and multi-horizon forecasting demands. Public datasets supporting it remain scarce and small: widely used free benchmarks contain between 6,000 and 80,000 company-year observations, while larger resources are behind subscription paywalls. To address this gap, we introduce V4FinBench, a benchmark of over one million company-year records from the Visegràd Group (V4) economies (2006-2021), with 131 financial and non-financial features, six prediction horizons, and a composite distress criterion jointly capturing solvency, profitability, and liquidity deterioration. V4FinBench is designed to support the evaluation of tabular and foundation-model methods under realistic class imbalance, with positive rates between 0.19% and 0.36%. We provide reference evaluations of standard tabular baselines, finetuned TabPFN, and QLoRA-finetuned Llama-3-8B. With imbalance-aware finetuning, TabPFN matches or exceeds gradient boosting at longer time horizons on both $F_1$-score and ROC-AUC. In contrast, Llama-3-8B trails gradient boosting on ROC-AUC at every horizon and is generally weaker on $F_1$-score, with the gap widening sharply beyond the immediate horizon. In an external evaluation on the American Bankruptcy Dataset, the V4FinBench-finetuned TabPFN checkpoint improves over vanilla TabPFN, suggesting that adaptation captures transferable financial-distress structure rather than only V4-specific patterns. V4FinBench is publicly released to support further evaluation and development of prediction methods on realistic financial data.