Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data

📄 arXiv: 2503.15374v1 📥 PDF

作者: Anatole Callies, Quentin Bodinier, Philippe Ravaud, Kourosh Davarpanah

分类: cs.CL, cs.AI

发布日期: 2025-03-19


💡 一句话要点

提出基于多模态LLM的临床试验患者匹配流程,提升准确率和效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 临床试验 患者匹配 多模态LLM 电子病历 自然语言处理

📋 核心要点

  1. 现有临床试验患者匹配方法依赖文本模型,存在推理能力不足和信息损失等问题。
  2. 论文提出一种基于多模态LLM的患者匹配流程,直接处理EHR原始文档,提升匹配准确率。
  3. 实验表明,该流程在真实世界数据集中达到87%的准确率,并显著减少了人工审查时间。

📝 摘要(中文)

背景:临床试验的患者招募受到复杂入选标准和耗时的人工病历审查的阻碍。以往仅使用文本模型的方案,由于推理能力有限、视觉记录转换为文本造成信息损失以及缺乏通用的EHR集成来提取患者数据,难以可靠且可扩展地解决此问题。方法:我们引入了一种广泛适用、无需集成的、基于LLM的流程,该流程使用从EHR提取的原始文档自动进行患者-试验匹配。我们的方法利用了(1)新的推理LLM范式,能够评估最复杂的标准,(2)最新LLM的视觉能力,无需有损的图像到文本转换即可解释医疗记录,以及(3)用于高效医疗记录搜索的多模态嵌入。该流程在n2c2 2018队列选择数据集(288名糖尿病患者)和一个真实世界数据集(来自30个不同站点的485名患者,匹配36个不同的试验)上进行了验证。结果:在n2c2数据集上,我们的方法达到了93%的新的最先进的标准级准确率。在真实世界的试验中,该流程产生了87%的准确率,但由于医疗记录缺乏足够的信息,难以复制人类的决策而受到影响。尽管如此,用户平均能够在不到9分钟的时间内审查每个患者的总体资格,比传统的人工病历审查提高了80%。结论:该流程在临床试验患者匹配中表现出强大的性能,无需与站点系统进行自定义集成或针对试验进行定制,从而能够在寻求利用AI进行患者匹配的站点进行可扩展的部署。

🔬 方法详解

问题定义:临床试验患者招募面临的主要问题是效率低下和准确率不足。现有方法依赖人工审查电子病历(EHR),耗时且容易出错。以往基于文本的模型无法充分利用EHR中的视觉信息(如扫描文档),并且推理能力有限,难以处理复杂的入选标准。

核心思路:论文的核心思路是利用多模态大型语言模型(LLM)的强大推理能力和视觉信息处理能力,直接从EHR原始文档中提取信息,避免信息损失,并自动化患者-试验匹配过程。通过结合文本和图像信息,LLM能够更准确地评估患者是否符合试验的入选标准。

技术框架:该流程主要包含以下几个阶段:1) 从EHR中提取患者的原始文档(包括文本和图像);2) 使用多模态LLM处理这些文档,提取相关信息;3) 将提取的信息与试验的入选标准进行比较,判断患者是否符合条件;4) 使用多模态嵌入进行高效的医疗记录搜索,加速匹配过程。整个流程无需与特定站点系统集成,具有良好的通用性。

关键创新:该论文的关键创新在于:1) 利用多模态LLM直接处理EHR原始文档,避免了信息损失;2) 采用新的推理LLM范式,能够处理复杂的入选标准;3) 提出了一种无需定制集成的通用流程,易于部署和扩展。

关键设计:论文中没有明确给出关键参数设置、损失函数或网络结构的具体细节。但可以推断,LLM的选择和训练是关键。具体来说,需要选择具有强大视觉和文本处理能力的多模态LLM,并可能需要针对医疗领域的特定任务进行微调。此外,多模态嵌入的设计也至关重要,需要能够有效地表示文本和图像信息,并支持高效的相似度搜索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在n2c2数据集上达到了93%的标准级准确率,刷新了现有最佳水平。在真实世界数据集中,该流程的准确率为87%,并且将每位患者的资格审查时间缩短至9分钟以内,相比传统人工审查提升了80%的效率。这些结果表明,该方法具有很强的实用价值。

🎯 应用场景

该研究成果可广泛应用于临床试验患者招募领域,加速新药研发进程。通过自动化患者匹配,可以显著降低人工成本,提高招募效率,并减少因人工错误导致的偏差。此外,该技术还可以应用于其他需要处理复杂医疗数据的场景,例如疾病诊断、个性化治疗方案推荐等。

📄 摘要(原文)

Background: Patient recruitment in clinical trials is hindered by complex eligibility criteria and labor-intensive chart reviews. Prior research using text-only models have struggled to address this problem in a reliable and scalable way due to (1) limited reasoning capabilities, (2) information loss from converting visual records to text, and (3) lack of a generic EHR integration to extract patient data. Methods: We introduce a broadly applicable, integration-free, LLM-powered pipeline that automates patient-trial matching using unprocessed documents extracted from EHRs. Our approach leverages (1) the new reasoning-LLM paradigm, enabling the assessment of even the most complex criteria, (2) visual capabilities of latest LLMs to interpret medical records without lossy image-to-text conversions, and (3) multimodal embeddings for efficient medical record search. The pipeline was validated on the n2c2 2018 cohort selection dataset (288 diabetic patients) and a real-world dataset composed of 485 patients from 30 different sites matched against 36 diverse trials. Results: On the n2c2 dataset, our method achieved a new state-of-the-art criterion-level accuracy of 93\%. In real-world trials, the pipeline yielded an accuracy of 87\%, undermined by the difficulty to replicate human decision-making when medical records lack sufficient information. Nevertheless, users were able to review overall eligibility in under 9 minutes per patient on average, representing an 80\% improvement over traditional manual chart reviews. Conclusion: This pipeline demonstrates robust performance in clinical trial patient matching without requiring custom integration with site systems or trial-specific tailoring, thereby enabling scalable deployment across sites seeking to leverage AI for patient matching.