Ensembling Tabular Foundation Models - A Diversity Ceiling And A Calibration Trap

作者: Aditya Tanna, Yash Desai, Pratinav Seth, Mohamed Bouadi, Nassim Bouarour, Vinay Kumar Sankarapu

分类: cs.LG, cs.AI

发布日期: 2026-05-18

💡 一句话要点

表格基础模型集成面临多样性上限和校准陷阱，推荐贪婪选择策略

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格数据 基础模型 集成学习 多样性 校准

📋 核心要点

现有表格基础模型集成效果不佳，主要原因是模型间高度冗余，导致多样性不足。
论文研究了六种集成策略在表格基础模型上的表现，并分析了其优缺点。
实验表明，复杂的集成策略收益有限，甚至不如单一模型，推荐使用贪婪选择策略。

📝 摘要（中文）

表格基础模型(TFMs)在越来越多的表格任务上达到或超过了经过调优的梯度提升树的性能，但没有一个单一的TFM能在所有数据集上都取得最佳效果。集成方法是常用的解决方案，但其效果不如预期。六个现代TFM形成了一个近乎冗余的池：它们的平均成对Q统计量为0.961，非常接近1，任何凸组合都有上限。我们在153个OpenML分类任务上，针对六个TFM，评估了六种集成策略。最佳集成方法，即两级级联堆叠，以253倍的计算量获得了比最强单一TFM高+0.18%的准确率。Friedman和Nemenyi分析将三个集成方法和最佳基础TFM置于一个等价组中；其他三个集成方法明显比最佳基础模型更差。使用逻辑回归元学习器的堆叠是最显著的例子：具有竞争力的准确率和ROC-AUC，但在集成方法中具有最差的log-loss排名。元学习器通过锐化类边界来提高准确率，但这会破坏校准。我们推荐贪婪选择作为实际的默认选择。

🔬 方法详解

问题定义：论文旨在解决表格基础模型(TFMs)集成效果不佳的问题。尽管TFMs在许多表格数据任务中表现出色，但没有一个模型能在所有数据集上都达到最佳性能。因此，集成学习被认为是提高泛化能力的一种方法。然而，现有的TFMs之间存在高度的相似性，导致集成后的性能提升有限，甚至可能降低。此外，使用元学习器进行堆叠集成时，可能会出现校准问题，即模型预测的置信度与实际准确率不符。

核心思路：论文的核心思路是分析TFMs集成的多样性，并评估不同集成策略的性能。通过计算Q统计量来衡量模型之间的相似性，发现TFMs之间存在高度冗余。针对这一问题，论文探索了多种集成策略，包括简单平均、加权平均、堆叠等，并分析了它们在准确率、校准等方面的表现。最终，论文推荐使用贪婪选择策略，因为它在计算成本和性能之间取得了较好的平衡。

技术框架：论文的整体框架包括以下几个步骤：1) 选择六个具有代表性的TFMs作为基础模型。2) 在153个OpenML分类任务上评估这些模型的性能。3) 使用Q统计量分析模型之间的多样性。4) 实施六种不同的集成策略，包括简单平均、加权平均、两级级联堆叠等。5) 使用Friedman和Nemenyi测试对集成策略进行统计分析。6) 分析堆叠集成中的校准问题。

关键创新：论文的关键创新在于：1) 揭示了TFMs集成面临的多样性上限问题，即模型之间的高度冗余限制了集成性能的提升。2) 指出了使用逻辑回归元学习器进行堆叠集成时可能出现的校准问题。3) 提出了贪婪选择策略作为一种实用的集成方法，因为它在计算成本和性能之间取得了较好的平衡。

关键设计：论文的关键设计包括：1) 使用Q统计量来量化模型之间的相似性。Q统计量的计算公式为：Q = (N11 * N00 - N10 * N01) / (N11 * N00 + N10 * N01)，其中Nij表示两个模型在第i个模型预测为j的样本数量。2) 实施了多种集成策略，包括简单平均、加权平均、两级级联堆叠等。3) 使用逻辑回归作为堆叠集成的元学习器。4) 使用Friedman和Nemenyi测试对集成策略进行统计分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，两级级联堆叠集成方法在153个OpenML分类任务上获得了比最强单一TFM高+0.18%的准确率，但计算量增加了253倍。Friedman和Nemenyi分析表明，三种集成方法和最佳基础TFM处于一个等价组中，而其他三种集成方法明显比最佳基础模型更差。使用逻辑回归元学习器的堆叠集成虽然具有竞争力的准确率和ROC-AUC，但在集成方法中具有最差的log-loss排名，表明其校准性能较差。

🎯 应用场景

该研究成果可应用于各种表格数据分析场景，例如金融风险评估、医疗诊断、客户行为预测等。通过选择合适的集成策略，可以提高模型预测的准确性和鲁棒性，从而为决策提供更可靠的依据。未来的研究可以探索更多样化的表格基础模型，并设计更有效的集成方法，以进一步提高表格数据分析的性能。

📄 摘要（原文）

Tabular foundation models (TFMs) now match or beat tuned gradient-boosted trees on a growing fraction of tabular tasks, but no single TFM wins on every dataset. Ensembling is the go to fix here, and it works less well than expected. Six modern TFMs form a near-redundant pool: their mean pairwise Q-statistic is $0.961$, close enough to $1$ that any convex combination is bounded above. We benchmark six ensemble strategies over six TFMs on 153 OpenML classification tasks. The best ensemble, two-level cascade stacking, buys $+0.18\%$ accuracy over the strongest single TFM at $253\times$ the compute. A Friedman and Nemenyi analysis places three ensembles and the best base TFM in a single equivalence group; three other ensembles are significantly \emph{worse} than the best base. Stacking with a logistic-regression meta-learner is the most striking case: competitive accuracy and ROC-AUC, the worst log-loss rank among the ensembles. The meta-learner improves accuracy by sharpening class boundaries, which destroys calibration. We recommend greedy selection as the practical default.

Ensembling Tabular Foundation Models - A Diversity Ceiling And A Calibration Trap

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理