Integrating Large Language Models with Human Expertise for Disease Detection in Electronic Health Records
作者: Jie Pan, Seungwon Lee, Cheligeer Cheligeer, Elliot A. Martin, Kiarash Riazi, Hude Quan, Na Li
分类: cs.CL, cs.AI
发布日期: 2025-03-31
DOI: 10.1016/j.compbiomed.2025.110161
💡 一句话要点
利用大型语言模型与人类专业知识相结合,提升电子病历中疾病检测的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 电子病历 疾病检测 自然语言处理 临床决策支持
📋 核心要点
- 电子病历疾病定义依赖人工标注,耗时费力,现有方法难以高效利用海量临床文本数据。
- 利用生成式大型语言模型,通过提示工程,从电子病历临床记录中提取疾病相关信息。
- 实验表明,该方法在急性心肌梗死、糖尿病和高血压的检测中,相比ICD代码,提高了敏感性和阴性预测值。
📝 摘要(中文)
本研究旨在利用电子病历(EHR)补充基于管理数据的疾病监测和医疗保健绩效评估。从EHR中定义疾病需要大量人工标注疾病结果,过程繁琐。本研究开发了一种高效策略,基于先进的大型语言模型(LLM),通过特定的诊断、治疗管理和临床指南提示,分析、理解和解释EHR临床记录,从而识别多种疾病。该流程应用于检测急性心肌梗死(AMI)、糖尿病和高血压,并将性能与临床医生验证的诊断结果(作为参考标准)以及广泛采用的基于国际疾病分类(ICD)代码的方法进行比较。研究队列包括3088名患者和551095份临床记录。AMI、糖尿病和高血压的患病率分别为55.4%、27.7%和65.9%。基于LLM的流程在检测疾病方面的性能各异:AMI的敏感性为88%,特异性为63%,阳性预测值(PPV)为77%;糖尿病的敏感性为91%,特异性为86%,PPV为71%;高血压的敏感性为94%,特异性为32%,PPV为72%。与ICD代码相比,基于LLM的方法在所有疾病中均表现出更高的敏感性和阴性预测值。LLM检测病例与参考标准的每月百分比趋势显示出一致的模式。
🔬 方法详解
问题定义:本研究旨在解决从电子病历(EHR)的临床记录中高效准确地识别多种疾病的问题。现有方法,如基于ICD代码的方法,敏感性较低,而人工标注成本高昂且耗时。因此,如何利用海量的非结构化临床文本数据,快速准确地进行疾病诊断是本研究要解决的核心问题。
核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,通过提示工程(Prompt Engineering)将疾病诊断任务转化为LLM可以理解和执行的文本生成任务。通过精心设计的提示,引导LLM分析、理解和解释EHR临床记录,从而提取疾病相关的信息,并进行疾病诊断。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据准备:收集包含患者临床记录的EHR数据,并将其与临床医生验证的诊断结果进行关联;2) 提示工程:根据特定的诊断、治疗管理和临床指南,设计针对不同疾病的提示;3) LLM推理:使用LLM对EHR临床记录进行分析,并根据提示生成疾病诊断结果;4) 性能评估:将LLM的诊断结果与临床医生验证的诊断结果以及基于ICD代码的方法进行比较,评估LLM的性能。
关键创新:本研究的关键创新在于将大型语言模型应用于电子病历的疾病检测,并利用提示工程来指导LLM进行疾病诊断。与传统的基于规则或机器学习的方法相比,该方法能够更好地利用非结构化的临床文本数据,并具有更强的泛化能力。此外,该方法无需大量的人工标注数据,降低了疾病诊断的成本。
关键设计:研究中使用了生成式大型语言模型,具体模型未明确说明,但强调了其分析、理解和解释EHR记录的能力。提示工程是关键,提示的设计需要结合具体的诊断、治疗管理和临床指南。性能评估指标包括敏感性、特异性和阳性预测值(PPV)。没有提及具体的损失函数或网络结构,重点在于利用LLM的固有能力。
📊 实验亮点
实验结果表明,基于LLM的方法在检测急性心肌梗死、糖尿病和高血压方面,相比于传统的基于ICD代码的方法,具有更高的敏感性和阴性预测值。具体而言,对于急性心肌梗死,LLM的敏感性为88%,糖尿病为91%,高血压为94%。这些结果表明,LLM能够更有效地识别出患有这些疾病的患者。
🎯 应用场景
该研究成果可应用于临床决策支持系统,辅助医生进行疾病诊断和治疗方案制定。通过自动分析电子病历,可以提高诊断效率和准确性,减少误诊和漏诊。此外,该方法还可以用于疾病监测和公共卫生管理,及时发现和控制疾病的传播。未来,该技术有望推广到其他医疗领域,例如药物研发和个性化医疗。
📄 摘要(原文)
Objective: Electronic health records (EHR) are widely available to complement administrative data-based disease surveillance and healthcare performance evaluation. Defining conditions from EHR is labour-intensive and requires extensive manual labelling of disease outcomes. This study developed an efficient strategy based on advanced large language models to identify multiple conditions from EHR clinical notes. Methods: We linked a cardiac registry cohort in 2015 with an EHR system in Alberta, Canada. We developed a pipeline that leveraged a generative large language model (LLM) to analyze, understand, and interpret EHR notes by prompts based on specific diagnosis, treatment management, and clinical guidelines. The pipeline was applied to detect acute myocardial infarction (AMI), diabetes, and hypertension. The performance was compared against clinician-validated diagnoses as the reference standard and widely adopted International Classification of Diseases (ICD) codes-based methods. Results: The study cohort accounted for 3,088 patients and 551,095 clinical notes. The prevalence was 55.4%, 27.7%, 65.9% and for AMI, diabetes, and hypertension, respectively. The performance of the LLM-based pipeline for detecting conditions varied: AMI had 88% sensitivity, 63% specificity, and 77% positive predictive value (PPV); diabetes had 91% sensitivity, 86% specificity, and 71% PPV; and hypertension had 94% sensitivity, 32% specificity, and 72% PPV. Compared with ICD codes, the LLM-based method demonstrated improved sensitivity and negative predictive value across all conditions. The monthly percentage trends from the detected cases by LLM and reference standard showed consistent patterns.