Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping

📄 arXiv: 2312.06457v1 📥 PDF

作者: Will E. Thompson, David M. Vidmar, Jessica K. De Freitas, John M. Pfeifer, Brandon K. Fornwalt, Ruijun Chen, Gabriel Altay, Kabir Manghnani, Andrew C. Nelsen, Kellie Morland, Martin C. Stumpe, Riccardo Miotto

分类: cs.AI, cs.CL, cs.IR

发布日期: 2023-12-11

备注: Deep Generative Models for Health Workshop NeurIPS 2023


💡 一句话要点

提出基于检索增强生成的大语言模型零样本方法,用于肺动脉高压表型识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 检索增强生成 零样本学习 疾病表型识别 电子健康记录 肺动脉高压 罕见疾病

📋 核心要点

  1. 现有方法在罕见疾病表型识别中面临挑战,主要原因是电子病历编码不足,依赖人工规则难以覆盖。
  2. 论文提出一种基于检索增强生成的大语言模型方法,通过检索相关文本片段辅助模型进行零样本诊断。
  3. 实验结果表明,该方法在肺动脉高压识别任务上显著优于医生逻辑规则,F1值提升明显。

📝 摘要(中文)

从电子健康记录(EHRs)中识别疾病表型对于许多二次应用至关重要。由于EHR编码不足,手动将医生知识编码为规则对于罕见疾病尤其具有挑战性,需要审查临床笔记。大型语言模型(LLMs)在文本理解方面展现出潜力,但可能无法有效处理真实世界的临床文档。我们提出了一种基于检索增强生成和MapReduce的零样本LLM方法,该方法预先识别与疾病相关的文本片段,这些片段将并行用作LLM的查询,以建立诊断。我们表明,该方法应用于肺动脉高压(PH),一种以肺部动脉压力升高为特征的罕见疾病,显著优于医生逻辑规则(F1分数为0.75 vs. 0.62)。该方法有潜力增强罕见疾病队列识别,扩大稳健的临床研究和护理差距识别的范围。

🔬 方法详解

问题定义:论文旨在解决从电子健康记录中自动识别疾病表型的问题,尤其关注罕见疾病。现有方法,如手动编码医生知识为规则,在罕见疾病上表现不佳,因为罕见疾病的电子病历编码通常不完整或不准确,需要耗时的人工审查临床笔记。

核心思路:论文的核心思路是利用大型语言模型(LLM)的文本理解能力,并结合检索增强生成(RAG)技术,以零样本的方式进行疾病表型识别。通过检索与疾病相关的文本片段,为LLM提供更丰富的上下文信息,从而提高诊断的准确性。

技术框架:该方法包含以下主要阶段:1) 文本片段预识别:使用MapReduce框架并行处理电子健康记录,识别与目标疾病相关的文本片段。2) 检索增强:将识别出的文本片段作为查询,输入到LLM中,以增强LLM对患者病情的理解。3) 诊断生成:LLM基于检索到的信息生成诊断结果。

关键创新:该方法的关键创新在于将检索增强生成技术应用于零样本疾病表型识别。与传统的基于规则的方法相比,该方法无需手动编码医生知识,能够自动从电子健康记录中学习疾病表型。与直接使用LLM进行诊断相比,该方法通过检索相关文本片段,为LLM提供更准确、更全面的上下文信息,从而提高了诊断的准确性。

关键设计:论文中没有明确说明关键参数设置、损失函数或网络结构等技术细节。检索的具体策略(例如,使用何种检索模型、如何选择检索到的文本片段)以及LLM的具体选择(例如,使用哪个预训练模型、如何进行微调)等细节未知。

📊 实验亮点

实验结果表明,该方法在肺动脉高压(PH)识别任务上显著优于医生逻辑规则,F1分数为0.75,而医生逻辑规则的F1分数为0.62。这表明该方法能够有效利用电子健康记录中的信息,提高罕见疾病表型识别的准确性。

🎯 应用场景

该研究成果可应用于多种罕见疾病的自动表型识别,辅助医生进行诊断,提高诊断效率和准确性。此外,该方法还可以用于识别护理差距,优化临床研究队列,促进精准医疗的发展。未来,该方法有望扩展到其他临床领域,例如药物不良反应监测、疾病风险预测等。

📄 摘要(原文)

Identifying disease phenotypes from electronic health records (EHRs) is critical for numerous secondary uses. Manually encoding physician knowledge into rules is particularly challenging for rare diseases due to inadequate EHR coding, necessitating review of clinical notes. Large language models (LLMs) offer promise in text understanding but may not efficiently handle real-world clinical documentation. We propose a zero-shot LLM-based method enriched by retrieval-augmented generation and MapReduce, which pre-identifies disease-related text snippets to be used in parallel as queries for the LLM to establish diagnosis. We show that this method as applied to pulmonary hypertension (PH), a rare disease characterized by elevated arterial pressures in the lungs, significantly outperforms physician logic rules ($F_1$ score of 0.62 vs. 0.75). This method has the potential to enhance rare disease cohort identification, expanding the scope of robust clinical research and care gap identification.