Augmented Risk Prediction for the Onset of Alzheimer's Disease from Electronic Health Records with Large Language Models

📄 arXiv: 2405.16413v1 📥 PDF

作者: Jiankun Wang, Sumyeong Ahn, Taykhoom Dalal, Xiaodan Zhang, Weishen Pan, Qiannan Zhang, Bin Chen, Hiroko H. Dodge, Fei Wang, Jiayu Zhou

分类: cs.AI, cs.CL, cs.LG, stat.AP

发布日期: 2024-05-26


💡 一句话要点

利用大语言模型增强电子病历中阿尔茨海默病发病风险预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿尔茨海默病 电子病历 风险预测 大语言模型 监督学习 少样本学习 医疗健康

📋 核心要点

  1. 现有基于电子病历的阿尔茨海默病风险预测方法在处理复杂病例时存在局限性,需要更强大的推理能力。
  2. 该论文提出了一种结合监督学习和大型语言模型的协作流程,利用各自的优势进行风险预测。
  3. 实验结果表明,该方法在预测性能方面取得了显著改进,有望革新ADRD筛查和早期检测实践。

📝 摘要(中文)

阿尔茨海默病(AD)是美国65岁及以上人群的第五大死因。对AD和相关痴呆症(ADRD)进行筛查和早期检测对于及时干预和识别临床试验参与者至关重要。电子病历(EHR)的广泛应用为开发基于机器学习的ADRD筛查工具(如预测模型)提供了重要资源。大语言模型(LLM)的最新进展展示了其前所未有的知识编码和推理能力,这为增强风险预测提供了强大的潜力。本文提出了一种新颖的流程,通过利用LLM的少样本推理能力来增强风险预测,从而对传统监督学习方法(SL)可能不擅长的案例进行预测。具体来说,我们开发了一种协作流程,通过置信度驱动的决策机制将SL和LLM相结合,利用SL在明确案例中的优势和LLM在更复杂场景中的优势。我们使用来自俄勒冈健康与科学大学(OHSU)医院的真实EHR数据仓库评估了该流程,该数据仓库包含来自超过250万患者和超过2000万次患者就诊的EHR。结果表明,我们提出的方法有效地结合了SL和LLM的能力,在预测性能方面提供了显著的改进。这一进展有望彻底改变ADRD筛查和早期检测实践,并可能对更好的患者管理策略产生影响,从而改善医疗保健。

🔬 方法详解

问题定义:论文旨在解决阿尔茨海默病(AD)的早期风险预测问题,利用电子病历(EHR)数据,提高预测的准确性和效率。现有方法,特别是传统的监督学习(SL)方法,在处理复杂、模糊的病例时表现不佳,因为它们依赖于大量标注数据,并且缺乏对医学知识的有效利用。

核心思路:论文的核心思路是将传统的监督学习方法(SL)与大型语言模型(LLM)相结合,构建一个协作式的预测流程。SL擅长处理明确、有规律的病例,而LLM则具备强大的知识编码和推理能力,能够处理更复杂、模糊的病例。通过置信度驱动的决策机制,系统能够根据不同情况选择合适的模型进行预测。

技术框架:整体框架包含两个主要模块:监督学习模块和大型语言模型模块。首先,使用传统的监督学习方法(如分类器)对EHR数据进行训练,得到一个初步的预测模型。然后,利用大型语言模型,通过少样本学习的方式,对EHR数据进行推理和预测。最后,通过一个置信度驱动的决策机制,根据两个模型的预测结果和置信度,选择最终的预测结果。

关键创新:该论文的关键创新在于将大型语言模型的少样本推理能力引入到阿尔茨海默病风险预测中,并设计了一个协作式的预测流程,有效地结合了监督学习和大型语言模型的优势。这种方法能够处理传统监督学习方法难以处理的复杂病例,提高了预测的准确性和鲁棒性。

关键设计:置信度驱动的决策机制是关键设计之一。具体来说,系统会评估监督学习模型和大型语言模型预测结果的置信度,并根据置信度的大小来选择最终的预测结果。例如,如果监督学习模型的置信度较高,则选择监督学习模型的预测结果;反之,如果大型语言模型的置信度较高,则选择大型语言模型的预测结果。具体的置信度计算方法和阈值设置可能需要根据实际数据进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究使用来自俄勒冈健康与科学大学(OHSU)医院的真实EHR数据进行了评估,数据包含超过250万患者和2000万次患者就诊记录。实验结果表明,所提出的方法有效地结合了监督学习和大型语言模型的能力,在预测性能方面提供了显著的改进。具体的性能提升数据(如AUC、准确率等)在摘要中未明确给出,但强调了其有效性。

🎯 应用场景

该研究成果可应用于阿尔茨海默病和其他相关痴呆症的早期筛查和风险预测,帮助医生更早地识别高风险人群,从而进行及时的干预和治疗。此外,该方法还可以用于临床试验的参与者招募,提高临床试验的效率和成功率。未来,该方法有望推广到其他疾病的风险预测和诊断领域,改善医疗保健水平。

📄 摘要(原文)

Alzheimer's disease (AD) is the fifth-leading cause of death among Americans aged 65 and older. Screening and early detection of AD and related dementias (ADRD) are critical for timely intervention and for identifying clinical trial participants. The widespread adoption of electronic health records (EHRs) offers an important resource for developing ADRD screening tools such as machine learning based predictive models. Recent advancements in large language models (LLMs) demonstrate their unprecedented capability of encoding knowledge and performing reasoning, which offers them strong potential for enhancing risk prediction. This paper proposes a novel pipeline that augments risk prediction by leveraging the few-shot inference power of LLMs to make predictions on cases where traditional supervised learning methods (SLs) may not excel. Specifically, we develop a collaborative pipeline that combines SLs and LLMs via a confidence-driven decision-making mechanism, leveraging the strengths of SLs in clear-cut cases and LLMs in more complex scenarios. We evaluate this pipeline using a real-world EHR data warehouse from Oregon Health \& Science University (OHSU) Hospital, encompassing EHRs from over 2.5 million patients and more than 20 million patient encounters. Our results show that our proposed approach effectively combines the power of SLs and LLMs, offering significant improvements in predictive performance. This advancement holds promise for revolutionizing ADRD screening and early detection practices, with potential implications for better strategies of patient management and thus improving healthcare.