Gradient Boosting Trees and Large Language Models for Tabular Data Few-Shot Learning

📄 arXiv: 2411.04324v1 📥 PDF

作者: Carlos Huertas

分类: cs.LG, cs.AI

发布日期: 2024-11-06

备注: FedCSIS 2024 - Data Mining Competition - 1st Place Winner


💡 一句话要点

改进梯度提升树,提升表格数据小样本学习性能,与大语言模型竞争

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格数据 小样本学习 梯度提升树 LightGBM 节点分裂 模型泛化 机器学习竞赛

📋 核心要点

  1. 表格数据小样本学习中,现有基线方法(如梯度提升树)的性能有待提升,无法充分发挥其潜力。
  2. 通过强制使用少量样本进行节点分裂,改进梯度提升决策树算法,提升其在小样本学习场景下的性能。
  3. 实验表明,改进后的 LightGBM 性能提升了 290%,并在样本数量增加时,性能可与 TabLLM 竞争,且运行时间更短。

📝 摘要(中文)

大型语言模型(LLM)为机器学习(ML)带来了众多新应用。在表格数据(TD)领域,最近的研究表明,TabLLM 是一种非常强大的小样本学习(FSL)机制,即使梯度提升决策树(GBDT)在 TD 领域占据主导地位已久。本文证明,虽然 LLM 是一种可行的替代方案,但用于衡量性能的基线仍有改进空间。我们复现了公开基准,并通过强制使用少量样本进行节点分裂,将 LightGBM 性能提高了 290%,这是 GBDT 在 FSL 中的关键步骤。结果表明,对于 8 个或更少的样本,TabLLM 具有优势,但随着样本数量的增加,GBDT 以更少的运行时间提供了具有竞争力的性能。对于具有大量样本的其他实际应用,我们发现 FSL 仍然有助于提高模型多样性,并且与 ExtraTrees 结合使用时,它提供了强大的过拟合抵抗能力,我们的提议在 ML 竞赛环境中得到了验证,并获得了第一名。

🔬 方法详解

问题定义:论文旨在解决表格数据上的小样本学习问题。现有的梯度提升决策树方法在小样本情况下性能不佳,无法与新兴的基于大型语言模型的方法(如 TabLLM)竞争。痛点在于,传统的梯度提升树在样本量不足时,难以进行有效的节点分裂,导致模型泛化能力差。

核心思路:论文的核心思路是通过改进梯度提升树的节点分裂策略,使其在小样本情况下也能有效学习。具体来说,强制使用少量样本进行节点分裂,从而避免模型过度依赖已有数据,提高泛化能力。这样设计的目的是为了充分利用梯度提升树在表格数据上的优势,同时克服其在小样本学习中的局限性。

技术框架:论文主要关注 LightGBM 算法的改进。整体流程包括:1) 数据预处理;2) 改进 LightGBM 的节点分裂策略;3) 在公开基准数据集上进行实验验证;4) 将改进后的算法应用于实际的机器学习竞赛。主要模块包括:LightGBM 模型训练模块、节点分裂策略改进模块、性能评估模块。

关键创新:最重要的技术创新点在于强制使用少量样本进行节点分裂。与现有方法的本质区别在于,传统方法通常依赖大量样本进行节点分裂,而在小样本情况下容易过拟合。论文提出的方法通过强制分裂,增加了模型的多样性,提高了泛化能力。

关键设计:论文的关键设计在于如何控制强制分裂的程度。具体的技术细节未知,但可以推测可能涉及到对节点分裂的最小样本数进行调整,或者引入一些正则化项来防止过度分裂。此外,论文还提到了将改进后的算法与 ExtraTrees 结合使用,以进一步提高模型的鲁棒性和抗过拟合能力,但具体结合方式未知。

📊 实验亮点

实验结果表明,通过强制使用少量样本进行节点分裂,LightGBM 的性能提升了 290%。在样本数量较少(8 个或更少)的情况下,TabLLM 表现更好,但随着样本数量的增加,改进后的 GBDT 算法在性能上可以与 TabLLM 竞争,并且运行时间更短。此外,该方法在实际的机器学习竞赛中获得了第一名,验证了其有效性和实用性。

🎯 应用场景

该研究成果可应用于各种表格数据的小样本学习场景,例如:新药研发、金融风控、推荐系统等。在这些领域,获取大量标注数据成本高昂,小样本学习技术具有重要价值。该研究有助于提升模型在数据稀缺情况下的性能,降低数据标注成本,加速相关领域的应用落地。

📄 摘要(原文)

Large Language Models (LLM) have brought numerous of new applications to Machine Learning (ML). In the context of tabular data (TD), recent studies show that TabLLM is a very powerful mechanism for few-shot-learning (FSL) applications, even if gradient boosting decisions trees (GBDT) have historically dominated the TD field. In this work we demonstrate that although LLMs are a viable alternative, the evidence suggests that baselines used to gauge performance can be improved. We replicated public benchmarks and our methodology improves LightGBM by 290%, this is mainly driven by forcing node splitting with few samples, a critical step in FSL with GBDT. Our results show an advantage to TabLLM for 8 or fewer shots, but as the number of samples increases GBDT provides competitive performance at a fraction of runtime. For other real-life applications with vast number of samples, we found FSL still useful to improve model diversity, and when combined with ExtraTrees it provides strong resilience to overfitting, our proposal was validated in a ML competition setting ranking first place.