Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes
作者: Mayuka Jayawardhana, Renbo, Samuel Dooley, Valeriia Cherepanova, Andrew Gordon Wilson, Frank Hutter, Colin White, Tom Goldstein, Micah Goldblum
分类: cs.CL, cs.LG
发布日期: 2025-02-04 (更新: 2025-02-06)
备注: 12 pages, 6 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出LLM-Boost和PFN-Boost,融合Transformer与GBDT提升表格数据在不同样本量下的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 Transformer 梯度提升决策树 融合方法 自然语言理解 预训练 LLM-Boost PFN-Boost
📋 核心要点
- 现有方法在表格数据处理上存在局限,LLMs和TabPFN在小数据集上表现好,但上下文长度限制了它们在大数据集上的性能,而GBDTs缺乏利用自然语言信息的能力。
- 论文提出LLM-Boost和PFN-Boost,通过融合LLMs/TabPFN与GBDTs,使GBDTs能够利用Transformer的自然语言理解能力和预训练知识。
- 实验结果表明,LLM-Boost和PFN-Boost在各种数据集大小上都优于单独的LLMs/TabPFN和GBDTs,并在大多数情况下实现了最佳的平均性能。
📝 摘要(中文)
大型语言模型(LLMs)在表格数据集上表现出色,尤其是在零样本和少样本设置下,因为它们可以从描述特征和标签的自然语言列标题中提取含义。TabPFN是一个非LLM Transformer,通过在大量表格上预训练进行上下文学习,在最多一千个样本的数据集大小上表现出优异的性能。相比之下,梯度提升决策树(GBDTs)通常在每个数据集上从头开始训练,无法从预训练数据中受益,并且必须仅从条目中学习列之间的关系,因为它们缺乏自然语言理解。LLMs和TabPFN擅长于需要强先验的小型表格数据集,但在中型或大型数据集上,它们与GBDTs相比没有竞争力,因为它们的上下文长度有限。本文提出了一种简单而轻量级的方法,将大型语言模型和TabPFN与梯度提升决策树融合,使可扩展的GBDTs能够受益于Transformer的自然语言能力和预训练。我们将我们的融合方法分别命名为LLM-Boost和PFN-Boost。LLM-Boost和PFN-Boost在足够小的数据集大小上匹配或超过Transformer的性能,在足够大的数据集大小上匹配或超过GBDTs的性能,并且在两者之间的各种数据集大小上优于独立的组件。我们展示了针对众多基线和集成算法的最先进的性能。我们发现,PFN-Boost在我们测试的所有方法中,除了非常小的数据集大小外,实现了最佳的平均性能。我们在http://github.com/MayukaJ/LLM-Boost发布了我们的代码。
🔬 方法详解
问题定义:论文旨在解决表格数据处理中,现有方法在不同数据规模下表现不佳的问题。具体来说,LLMs和TabPFN在小数据集上表现优异,但受限于上下文长度,无法有效处理大数据集;而GBDTs虽然擅长处理大数据集,但缺乏利用自然语言信息的能力,无法充分挖掘表格数据的潜在价值。因此,如何结合两者的优势,提升表格数据处理的整体性能,是本文要解决的核心问题。
核心思路:论文的核心思路是将LLMs/TabPFN的自然语言理解能力和预训练知识,融入到GBDTs的训练过程中,从而使GBDTs能够更好地理解表格数据的语义信息,并提升其在不同数据规模下的泛化能力。通过融合,GBDTs可以利用Transformer的先验知识,在小数据集上获得更好的性能,同时克服Transformer上下文长度的限制,在大数据集上保持竞争力。
技术框架:LLM-Boost和PFN-Boost的整体框架是相似的,主要区别在于使用的Transformer模型不同。其基本流程如下:1) 使用LLM或TabPFN对表格数据进行预处理,提取自然语言特征或生成伪标签;2) 将提取的特征或伪标签作为GBDTs的输入,与原始表格数据一起进行训练;3) 使用训练好的GBDTs进行预测。这个框架允许GBDTs在训练过程中利用Transformer提供的额外信息,从而提升其性能。
关键创新:论文的关键创新在于提出了一种简单而有效的融合方法,将Transformer的自然语言理解能力和预训练知识,与GBDTs的强大建模能力相结合。这种融合方法不仅提升了GBDTs在小数据集上的性能,也使其在大数据集上保持了竞争力,从而实现了在不同数据规模下的性能提升。此外,该方法具有轻量级的特点,易于实现和部署。
关键设计:论文的关键设计包括:1) 如何有效地提取LLMs/TabPFN的特征或生成伪标签,以供GBDTs使用;2) 如何将提取的特征或伪标签与原始表格数据进行融合,以获得最佳的性能提升;3) 如何选择合适的GBDTs模型和参数,以充分利用Transformer提供的额外信息。具体的参数设置和网络结构取决于所使用的LLMs/TabPFN和GBDTs模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-Boost和PFN-Boost在各种数据集大小上都优于单独的LLMs/TabPFN和GBDTs。PFN-Boost在大多数情况下实现了最佳的平均性能,尤其是在中等大小的数据集上,性能提升显著。这些结果表明,该融合方法能够有效地结合Transformer和GBDTs的优势,从而提升表格数据处理的整体性能。
🎯 应用场景
该研究成果可广泛应用于各种表格数据分析场景,如金融风控、医疗诊断、客户关系管理等。通过融合Transformer和GBDTs,可以提升模型在不同数据规模下的性能,从而更好地挖掘表格数据的潜在价值。未来,该方法有望应用于更复杂的表格数据分析任务,并与其他机器学习技术相结合,实现更强大的数据分析能力。
📄 摘要(原文)
Large language models (LLMs) perform remarkably well on tabular datasets in zero- and few-shot settings, since they can extract meaning from natural language column headers that describe features and labels. Similarly, TabPFN, a recent non-LLM transformer pretrained on numerous tables for in-context learning, has demonstrated excellent performance for dataset sizes up to a thousand samples. In contrast, gradient-boosted decision trees (GBDTs) are typically trained from scratch on each dataset without benefiting from pretraining data and must learn the relationships between columns from their entries alone since they lack natural language understanding. LLMs and TabPFN excel on small tabular datasets where a strong prior is essential, yet they are not competitive with GBDTs on medium or large datasets, since their context lengths are limited. In this paper, we propose a simple and lightweight approach for fusing large language models and TabPFN with gradient-boosted decision trees, which allows scalable GBDTs to benefit from the natural language capabilities and pretraining of transformers. We name our fusion methods LLM-Boost and PFN-Boost, respectively. While matching or surpassing the performance of the transformer at sufficiently small dataset sizes and GBDTs at sufficiently large sizes, LLM-Boost and PFN-Boost outperform both standalone components on a wide range of dataset sizes in between. We demonstrate state-of-the-art performance against numerous baselines and ensembling algorithms. We find that PFN-Boost achieves the best average performance among all methods we test for all but very small dataset sizes. We release our code at http://github.com/MayukaJ/LLM-Boost .