EHRmonize: A Framework for Medical Concept Abstraction from Electronic Health Records using Large Language Models

📄 arXiv: 2407.00242v1 📥 PDF

作者: João Matos, Jack Gallifant, Jian Pei, A. Ian Wong

分类: cs.CL

发布日期: 2024-06-28

备注: submitted for review, total of 10 pages


💡 一句话要点

EHRmonize:利用大语言模型从电子病历中提取医学概念,提升数据整合效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历 大型语言模型 医学概念提取 提示工程 少量样本学习 自然语言处理 医疗信息学

📋 核心要点

  1. 电子病历数据复杂且异构,人工提取和标准化医学概念耗时且易出错,阻碍了医疗研究和临床决策。
  2. EHRmonize框架利用大语言模型,通过少量样本学习和提示工程,自动从电子病历中提取和分类医学概念。
  3. 实验表明,GPT-4o在药物信息提取和分类任务中表现出色,显著减少了人工标注时间,提升了数据处理效率。

📝 摘要(中文)

电子病历(EHRs)包含大量复杂数据,但协调和处理这些信息仍然是一项具有挑战性且成本高昂的任务,需要大量的临床专业知识。虽然大型语言模型(LLMs)在各种医疗保健应用中显示出前景,但它们从EHR中提取医学概念的潜力在很大程度上仍未被探索。我们介绍了EHRmonize,这是一个利用LLMs从EHR数据中提取医学概念的框架。我们的研究使用来自两个真实EHR数据库的药物数据,通过各种提示策略,在两个自由文本提取和六个二元分类任务中评估了五个LLM。在所有任务中,采用10-shot prompting的GPT-4o表现最佳,Claude-3.5-Sonnet在部分任务中表现优异。GPT-4o在识别通用给药途径名称方面达到了97%的准确率,识别通用药物名称方面达到了82%的准确率,在执行抗生素二元分类方面达到了100%的准确率。虽然EHRmonize显著提高了效率,估计减少了60%的注释时间,但我们强调临床医生的监督仍然至关重要。我们的框架以Python包的形式提供,为协助临床医生进行EHR数据提取提供了一个有希望的工具,有可能加速医疗保健研究并改善数据协调流程。

🔬 方法详解

问题定义:电子病历(EHR)包含大量非结构化文本,从中提取有用的医学概念(如药物名称、给药途径等)是一项挑战。传统方法依赖于人工标注或基于规则的系统,前者成本高昂且耗时,后者难以适应EHR数据的多样性和复杂性。因此,需要一种能够自动、高效地从EHR中提取医学概念的方法。

核心思路:利用大型语言模型(LLMs)强大的文本理解和生成能力,通过少量样本学习(few-shot learning)和精心设计的提示(prompting),引导LLM从EHR文本中提取和分类医学概念。核心思想是将医学概念提取任务转化为LLM擅长的文本生成或分类任务。

技术框架:EHRmonize框架主要包含以下几个阶段:1) 数据预处理:对EHR文本进行清洗和格式化;2) 提示工程:设计合适的提示模板,指导LLM执行医学概念提取或分类任务;3) LLM推理:使用选定的LLM(如GPT-4o、Claude-3.5-Sonnet)对EHR文本进行推理,提取或分类医学概念;4) 结果后处理:对LLM的输出进行清洗和验证,确保结果的准确性和一致性。

关键创新:EHRmonize的关键创新在于将LLM应用于EHR数据的医学概念提取,并探索了不同的提示策略对LLM性能的影响。与传统方法相比,EHRmonize无需大量人工标注数据,即可实现较高的提取准确率和效率。此外,该框架具有良好的可扩展性,可以应用于不同类型的医学概念提取任务。

关键设计:论文采用了10-shot prompting策略,即在提示中提供10个示例,帮助LLM更好地理解任务要求。此外,论文还评估了不同LLM(GPT-4o、Claude-3.5-Sonnet等)在不同任务上的性能,并选择了性能最佳的LLM。对于二元分类任务,论文采用了标准的分类指标(如准确率、精确率、召回率、F1值)来评估LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o在所有任务中表现最佳,尤其是在10-shot prompting下,在识别通用给药途径名称方面达到了97%的准确率,识别通用药物名称方面达到了82%的准确率,在执行抗生素二元分类方面达到了100%的准确率。与人工标注相比,EHRmonize估计减少了60%的注释时间,显著提高了效率。

🎯 应用场景

EHRmonize框架可应用于多种医疗场景,例如药物警戒、临床试验招募、疾病风险预测等。通过自动提取和标准化电子病历中的医学概念,可以加速医疗研究进程,提高临床决策的效率和准确性,并为患者提供更个性化的医疗服务。未来,该框架有望与医疗知识图谱相结合,实现更深层次的医学信息挖掘和推理。

📄 摘要(原文)

Electronic health records (EHRs) contain vast amounts of complex data, but harmonizing and processing this information remains a challenging and costly task requiring significant clinical expertise. While large language models (LLMs) have shown promise in various healthcare applications, their potential for abstracting medical concepts from EHRs remains largely unexplored. We introduce EHRmonize, a framework leveraging LLMs to abstract medical concepts from EHR data. Our study uses medication data from two real-world EHR databases to evaluate five LLMs on two free-text extraction and six binary classification tasks across various prompting strategies. GPT-4o's with 10-shot prompting achieved the highest performance in all tasks, accompanied by Claude-3.5-Sonnet in a subset of tasks. GPT-4o achieved an accuracy of 97% in identifying generic route names, 82% for generic drug names, and 100% in performing binary classification of antibiotics. While EHRmonize significantly enhances efficiency, reducing annotation time by an estimated 60%, we emphasize that clinician oversight remains essential. Our framework, available as a Python package, offers a promising tool to assist clinicians in EHR data abstraction, potentially accelerating healthcare research and improving data harmonization processes.