Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data

📄 arXiv: 2409.02136v2 📥 PDF

作者: Mohammadreza Ghaffarzadeh-Esfahani, Mahdi Ghaffarzadeh-Esfahani, Arian Salahi-Niri, Hossein Toreyhi, Zahra Atf, Amirali Mohsenzadeh-Kermani, Mahshad Sarikhani, Zohreh Tajabadi, Fatemeh Shojaeian, Mohammad Hassan Bagheri, Aydin Feyzi, Mohammadamin Tarighatpayma, Narges Gazmeh, Fateme Heydari, Hossein Afshar, Amirreza Allahgholipour, Farid Alimardani, Ameneh Salehi, Naghmeh Asadimanesh, Mohammad Amin Khalafi, Hadis Shabanipour, Ali Moradi, Sajjad Hossein Zadeh, Omid Yazdani, Romina Esbati, Moozhan Maleki, Danial Samiei Nasr, Amirali Soheili, Hossein Majlesi, Saba Shahsavan, Alireza Soheilipour, Nooshin Goudarzi, Erfan Taherifard, Hamidreza Hatamabadi, Jamil S Samaan, Thomas Savage, Ankit Sakhuja, Ali Soroush, Girish Nadkarni, Ilad Alavi Darazam, Mohamad Amin Pourhoseingholi, Seyed Amir Ahmad Safavi-Naini

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-09-02 (更新: 2025-09-26)

备注: Code is available at: https://github.com/mohammad-gh009/Large-Language-Models-vs-Classical-Machine-learning and https://github.com/Sdamirsa/Tehran_COVID_Cohort. The datasets are available from the corresponding author on reasonable request (sdamirsa@ymail.com)

DOI: 10.1038/s41598-025-26705-7


💡 一句话要点

对比LLM与传统机器学习在COVID-19死亡率预测中的性能,发现传统方法更优

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: COVID-19死亡率预测 大型语言模型 传统机器学习 高维表格数据 零样本学习 微调 QLoRA

📋 核心要点

  1. 现有方法在利用高维表格数据预测COVID-19死亡率时,面临特征工程复杂、模型泛化性不足等挑战。
  2. 该研究对比了传统机器学习模型和大型语言模型在预测COVID-19死亡率方面的性能,探索LLM在医学预测建模中的潜力。
  3. 实验结果表明,传统机器学习模型(如XGBoost)在处理高维表格数据方面优于零样本LLM,但微调后的LLM性能显著提升。

📝 摘要(中文)

本研究比较了传统特征机器学习模型(CML)和大型语言模型(LLM)在利用来自四个医院的9134名患者的高维表格数据预测COVID-19死亡率方面的性能。评估了七个CML模型,包括XGBoost和随机森林(RF),以及八个LLM,如GPT-4和Mistral-7b,它们对文本转换的结构化数据执行零样本分类。此外,使用QLoRA方法对Mistral-7b进行了微调。在CML中,XGBoost和RF表现出优越的性能,内部和外部验证的F1得分分别为0.87和0.83。GPT-4在LLM类别中领先,F1得分为0.43,而微调Mistral-7b显著提高了其召回率,从1%提高到79%,在外部验证期间产生了稳定的F1得分0.74。虽然LLM在零样本分类中表现出中等性能,但微调显著提高了它们的有效性,可能缩小了与CML模型的差距。然而,CML在处理高维表格数据任务方面仍然优于LLM。这项研究强调了CML和微调LLM在医学预测建模中的潜力,同时强调了CML目前在结构化数据分析方面的优越性。

🔬 方法详解

问题定义:论文旨在解决使用高维表格数据预测COVID-19死亡率的问题。现有方法,特别是传统机器学习模型,需要大量的人工特征工程,并且可能难以捕捉数据中的复杂关系。大型语言模型(LLM)在处理文本数据方面表现出色,但其在处理结构化表格数据方面的能力尚不明确。

核心思路:论文的核心思路是将结构化表格数据转换为文本格式,然后利用LLM进行零样本分类或微调,以预测COVID-19死亡率。通过对比LLM和传统机器学习模型的性能,评估LLM在处理高维表格数据方面的潜力。同时,通过微调LLM,提高其在特定任务上的性能。

技术框架:整体框架包括数据预处理、模型训练和评估三个主要阶段。数据预处理阶段将结构化表格数据转换为文本格式。模型训练阶段包括训练传统的机器学习模型(如XGBoost和随机森林)以及训练和微调LLM(如GPT-4和Mistral-7b)。评估阶段使用F1得分等指标评估模型的性能。具体来说,Mistral-7b使用QLoRA方法进行微调。

关键创新:该研究的关键创新在于对比了LLM和传统机器学习模型在COVID-19死亡率预测任务中的性能,并探索了微调LLM以提高其在处理结构化表格数据方面的能力。此外,该研究还使用了QLoRA方法对Mistral-7b进行微调,这是一种高效的微调技术。

关键设计:论文的关键设计包括:1) 将结构化表格数据转换为文本格式的具体方法;2) 用于微调LLM的QLoRA方法的参数设置;3) 用于评估模型性能的指标(如F1得分)的选择;4) 传统机器学习模型的参数调优。

📊 实验亮点

实验结果表明,在传统机器学习模型中,XGBoost和随机森林表现最佳,内部和外部验证的F1得分分别为0.87和0.83。GPT-4在零样本LLM中表现最好,F1得分为0.43。通过QLoRA微调Mistral-7b后,其召回率从1%显著提高到79%,外部验证的F1得分为0.74。虽然微调后的LLM性能有所提升,但传统机器学习模型在处理高维表格数据方面仍然优于LLM。

🎯 应用场景

该研究成果可应用于医疗健康领域,辅助医生进行疾病风险预测和诊断,提升医疗决策的准确性和效率。通过结合传统机器学习和大型语言模型,可以更好地利用医疗数据,为患者提供个性化的治疗方案。未来,该方法有望推广到其他疾病的预测和诊断中。

📄 摘要(原文)

This study compared the performance of classical feature-based machine learning models (CMLs) and large language models (LLMs) in predicting COVID-19 mortality using high-dimensional tabular data from 9,134 patients across four hospitals. Seven CML models, including XGBoost and random forest (RF), were evaluated alongside eight LLMs, such as GPT-4 and Mistral-7b, which performed zero-shot classification on text-converted structured data. Additionally, Mistral- 7b was fine-tuned using the QLoRA approach. XGBoost and RF demonstrated superior performance among CMLs, achieving F1 scores of 0.87 and 0.83 for internal and external validation, respectively. GPT-4 led the LLM category with an F1 score of 0.43, while fine-tuning Mistral-7b significantly improved its recall from 1% to 79%, yielding a stable F1 score of 0.74 during external validation. Although LLMs showed moderate performance in zero-shot classification, fine-tuning substantially enhanced their effectiveness, potentially bridging the gap with CML models. However, CMLs still outperformed LLMs in handling high-dimensional tabular data tasks. This study highlights the potential of both CMLs and fine-tuned LLMs in medical predictive modeling, while emphasizing the current superiority of CMLs for structured data analysis.