A Multi-Layered Large Language Model Framework for Disease Prediction

作者: Malak Mohamed, Rokaia Emad, Ali Hamdi

分类: cs.CL, cs.AI

发布日期: 2025-01-30

💡 一句话要点

提出多层大语言模型框架，用于提升社交医疗场景下的疾病预测能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社交医疗 疾病预测 大型语言模型 BERT 命名实体识别

📋 核心要点

社交医疗平台积累了大量用户发布的症状数据，但如何有效利用这些数据进行疾病预测是一个挑战。
论文提出一个多层LLM框架，通过结合文本预处理技术（如NER）和微调的BERT模型，来提升疾病分类和严重程度评估的准确性。
实验结果表明，使用NER增强文本的CAMeL-BERT模型在疾病类型分类和严重程度评估方面取得了显著的性能提升。

📝 摘要（中文）

社交远程医疗通过允许患者分享症状并远程接受医疗咨询，彻底改变了医疗保健。用户经常在社交媒体和在线健康平台上发布症状，从而产生了大量的医疗数据，这些数据可用于疾病分类和症状严重程度评估。诸如LLAMA3、GPT-3.5 Turbo和BERT等大型语言模型（LLM）处理复杂的医疗数据，以增强疾病分类。本研究探索了三种阿拉伯语医疗文本预处理技术：文本摘要、文本优化和命名实体识别（NER）。在使用LoRA的情况下评估CAMeL-BERT、AraBERT和Asafaya-BERT，使用NER增强文本的CAMeL-BERT实现了最佳性能（83%的类型分类，69%的严重程度评估）。非微调模型的性能较差（13%-20%的类型分类，40%-49%的严重程度评估）。将LLM集成到社交远程医疗系统中可以提高诊断准确性和治疗效果。

🔬 方法详解

问题定义：论文旨在解决社交医疗场景下，利用用户发布的阿拉伯语医疗文本进行准确疾病预测的问题。现有方法在处理阿拉伯语医疗文本时，面临着数据噪声大、领域知识不足等挑战，导致疾病分类和严重程度评估的准确率较低。

核心思路：论文的核心思路是结合文本预处理技术和微调的BERT模型，构建一个多层LLM框架。通过文本预处理，可以有效去除噪声、提取关键信息；通过微调BERT模型，可以使其更好地适应阿拉伯语医疗文本的特点，从而提高疾病预测的准确性。

技术框架：该框架主要包含三个阶段：1) 阿拉伯语医疗文本预处理，包括文本摘要、文本优化和命名实体识别（NER）；2) 使用预处理后的文本微调BERT模型，包括CAMeL-BERT、AraBERT和Asafaya-BERT；3) 使用微调后的模型进行疾病类型分类和症状严重程度评估。LoRA被用于参数高效的微调。

关键创新：论文的关键创新在于将NER技术与BERT模型相结合，用于增强阿拉伯语医疗文本的疾病预测能力。NER可以提取文本中的关键医学实体，例如疾病名称、症状和药物，从而为BERT模型提供更丰富的上下文信息，提高其预测准确性。

关键设计：论文使用了三种不同的BERT模型（CAMeL-BERT、AraBERT和Asafaya-BERT），并比较了它们在疾病预测任务上的性能。使用了LoRA进行参数高效的微调。评估指标包括疾病类型分类的准确率和症状严重程度评估的准确率。最佳性能是通过使用NER增强文本的CAMeL-BERT模型实现的。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用NER增强文本的CAMeL-BERT模型在疾病类型分类上取得了83%的准确率，在症状严重程度评估上取得了69%的准确率。相比之下，非微调模型的性能较差，疾病类型分类准确率仅为13%-20%，症状严重程度评估准确率仅为40%-49%。这表明，文本预处理和模型微调对于提高疾病预测的准确性至关重要。

🎯 应用场景

该研究成果可应用于社交医疗平台，帮助医生快速准确地诊断患者病情，提高医疗效率。此外，该方法还可以用于构建智能健康助手，为用户提供个性化的健康建议和疾病预防指导。未来，该研究可以扩展到其他语言和医疗领域，为全球医疗健康事业做出贡献。

📄 摘要（原文）

Social telehealth has revolutionized healthcare by enabling patients to share symptoms and receive medical consultations remotely. Users frequently post symptoms on social media and online health platforms, generating a vast repository of medical data that can be leveraged for disease classification and symptom severity assessment. Large language models (LLMs), such as LLAMA3, GPT-3.5 Turbo, and BERT, process complex medical data to enhance disease classification. This study explores three Arabic medical text preprocessing techniques: text summarization, text refinement, and Named Entity Recognition (NER). Evaluating CAMeL-BERT, AraBERT, and Asafaya-BERT with LoRA, the best performance was achieved using CAMeL-BERT with NER-augmented text (83% type classification, 69% severity assessment). Non-fine-tuned models performed poorly (13%-20% type classification, 40%-49% severity assessment). Integrating LLMs into social telehealth systems enhances diagnostic accuracy and treatment outcomes.

A Multi-Layered Large Language Model Framework for Disease Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理