An Ensemble Classification Approach in A Multi-Layered Large Language Model Framework for Disease Prediction
作者: Ali Hamdi, Malak Mohamed, Rokaia Emad, Khaled Shaban
分类: cs.CL, cs.LG
发布日期: 2025-09-02
💡 一句话要点
提出一种多层LLM框架下的集成方法,用于提升阿拉伯语社交健康数据中的疾病预测精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 疾病预测 社交健康 大语言模型 Transformer模型 集成学习 阿拉伯语 文本预处理 远程医疗
📋 核心要点
- 社交健康平台积累了大量用户发布的症状数据,但如何有效利用这些阿拉伯语医疗文本进行疾病分类是一个挑战。
- 该研究提出一种多层框架,结合LLM预处理、微调的Transformer模型和集成学习,以提升疾病预测的准确性和鲁棒性。
- 实验结果表明,该方法在阿拉伯语医疗文本分类任务中取得了80.56%的准确率,验证了其有效性。
📝 摘要(中文)
本文提出了一种用于疾病预测的多层大语言模型(LLM)框架下的集成分类方法,旨在利用社交健康平台上的阿拉伯语医疗文本数据。该方法首先采用三种阿拉伯语医疗文本预处理技术,包括文本摘要、文本优化和命名实体识别(NER)。然后,将预处理后的文本输入到微调的阿拉伯语Transformer模型(CAMeLBERT、AraBERT和AsafayaBERT)中。为了提高模型的鲁棒性,采用多数投票集成方法,结合原始文本和预处理文本的预测结果。实验结果表明,该方法达到了80.56%的最佳分类准确率,验证了其在理解医疗文本方面的有效性。据我们所知,这是第一个将基于LLM的预处理与微调的阿拉伯语Transformer模型和集成学习相结合,用于阿拉伯语社交健康数据中疾病分类的研究。
🔬 方法详解
问题定义:论文旨在解决阿拉伯语社交健康数据中疾病分类的问题。现有方法在处理复杂的阿拉伯语医疗文本时,可能面临准确率和鲁棒性不足的挑战,尤其是在数据质量不高的情况下。
核心思路:论文的核心思路是通过多层框架,首先利用LLM进行文本预处理,提取关键信息并优化文本质量;然后,利用微调的Transformer模型学习文本表示;最后,通过集成学习结合不同模型的预测结果,提高整体的分类性能和鲁棒性。这种设计旨在充分利用不同模型的优势,弥补单一模型的不足。
技术框架:该方法的技术框架主要包括三个阶段:1) 预处理阶段:使用LLM进行阿拉伯语医疗文本的摘要、优化和命名实体识别;2) 模型训练阶段:使用预处理后的文本和原始文本分别微调CAMeLBERT、AraBERT和AsafayaBERT等阿拉伯语Transformer模型;3) 集成学习阶段:采用多数投票法,结合不同模型的预测结果,得到最终的疾病分类结果。
关键创新:该研究的关键创新在于将LLM用于阿拉伯语医疗文本的预处理,并将其与微调的Transformer模型和集成学习相结合。这种多层框架能够有效提升疾病分类的准确性和鲁棒性,尤其是在处理复杂的阿拉伯语医疗文本时。据作者所知,这是首次将这三种技术结合应用于阿拉伯语社交健康数据中的疾病分类。
关键设计:在预处理阶段,具体使用的LLM模型和预处理策略(如摘要算法、优化规则、NER工具)未知。在模型训练阶段,Transformer模型的微调参数(如学习率、batch size、epoch数)未知。在集成学习阶段,采用多数投票法,即选择预测结果中出现次数最多的类别作为最终的预测结果。
🖼️ 关键图片
📊 实验亮点
该研究提出的集成方法在阿拉伯语社交健康数据集中取得了80.56%的疾病分类准确率。通过结合LLM预处理、微调的Transformer模型和集成学习,该方法显著提升了疾病预测的性能,验证了其在处理复杂医疗文本方面的有效性。具体的提升幅度与基线模型的对比数据未知。
🎯 应用场景
该研究成果可应用于社交健康平台,帮助医生快速诊断疾病,提高医疗效率。此外,该方法还可以扩展到其他语言和医疗领域,为远程医疗和智能健康提供技术支持。未来,该技术有望在公共卫生监测和疾病预警方面发挥重要作用。
📄 摘要(原文)
Social telehealth has made remarkable progress in healthcare by allowing patients to post symptoms and participate in medical consultations remotely. Users frequently post symptoms on social media and online health platforms, creating a huge repository of medical data that can be leveraged for disease classification. Large language models (LLMs) such as LLAMA3 and GPT-3.5, along with transformer-based models like BERT, have demonstrated strong capabilities in processing complex medical text. In this study, we evaluate three Arabic medical text preprocessing methods such as summarization, refinement, and Named Entity Recognition (NER) before applying fine-tuned Arabic transformer models (CAMeLBERT, AraBERT, and AsafayaBERT). To enhance robustness, we adopt a majority voting ensemble that combines predictions from original and preprocessed text representations. This approach achieved the best classification accuracy of 80.56%, thus showing its effectiveness in leveraging various text representations and model predictions to improve the understanding of medical texts. To the best of our knowledge, this is the first work that integrates LLM-based preprocessing with fine-tuned Arabic transformer models and ensemble learning for disease classification in Arabic social telehealth data.