End-To-End Clinical Trial Matching with Large Language Models
作者: Dyke Ferber, Lars Hilgers, Isabella C. Wiest, Marie-Elisabeth Leßmann, Jan Clusmann, Peter Neidlinger, Jiefu Zhu, Georg Wölflein, Jacqueline Lammert, Maximilian Tschochohei, Heiko Böhme, Dirk Jäger, Mihaela Aldea, Daniel Truhn, Christiane Höper, Jakob Nikolas Kather
分类: cs.CL, cs.AI
发布日期: 2024-07-18
备注: 149 pages, including Supplements. 3 Main Figures
💡 一句话要点
利用大型语言模型实现端到端临床试验匹配,提升癌症患者治疗效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 临床试验匹配 大型语言模型 自然语言处理 电子健康记录 肿瘤学
📋 核心要点
- 医生在不一致的医疗文本和复杂的试验标准下,难以高效地为癌症患者匹配合适的临床试验。
- 利用大型语言模型GPT-4o,构建端到端的临床试验匹配流程,实现自动化筛选和匹配。
- 实验结果表明,该方法在识别相关试验和匹配患者信息方面表现出色,准确率超过人类专家。
📝 摘要(中文)
本文研究了如何利用大型语言模型(LLMs)自动化临床试验匹配的全过程,旨在解决医学自由文本格式不一致和试验资格标准复杂等问题,这些问题给医生带来了极大的挑战和时间消耗。研究使用GPT-4o和一组51个合成电子健康记录(EHRs),验证了该方法在clinicaltrials.gov上105,600个肿瘤相关临床试验中识别相关候选试验的准确率达到93.3%,并在标准层面上将患者信息与人类专家定义的基线进行匹配时,初步准确率达到88.0%。通过LLM反馈发现,最初被认为不正确的标准中有39.3%是模糊的或注释不准确的,在完善人类基线后,模型总准确率达到92.7%。总之,本文提出了一个使用LLM进行临床试验匹配的端到端流程,展示了在筛选试验和将试验与个体患者匹配方面的高精度,甚至优于合格医生的表现。该流程可以自主运行或在人工监督下运行,并且不限于肿瘤学,为在实际环境中增强患者-试验匹配提供了一个可扩展的解决方案。
🔬 方法详解
问题定义:临床试验匹配旨在为患者找到合适的临床试验,但医学文本格式不统一、试验标准复杂,导致医生手动匹配耗时且容易出错。现有方法通常依赖于规则或传统机器学习,难以处理医学文本的多样性和复杂性,泛化能力有限。
核心思路:利用大型语言模型(LLMs)强大的自然语言理解和生成能力,直接从电子健康记录(EHRs)中提取患者信息,并与临床试验的资格标准进行匹配。核心在于将整个匹配过程视为一个端到端的文本处理任务,避免了传统方法中复杂的特征工程和规则制定。
技术框架:该方法构建了一个端到端的临床试验匹配流程,主要包括以下几个阶段:1) 从clinicaltrials.gov检索相关的肿瘤学临床试验;2) 使用GPT-4o处理电子健康记录(EHRs)并提取患者信息;3) 将提取的患者信息与临床试验的资格标准进行匹配,判断患者是否符合试验要求;4) 利用LLM的反馈,对人工标注的基线进行修正,提高匹配的准确性。
关键创新:该方法最重要的创新在于利用LLM实现了端到端的临床试验匹配,无需人工干预即可完成整个流程。与传统方法相比,该方法能够更好地处理医学文本的复杂性和多样性,并且具有更强的泛化能力。此外,该方法还利用LLM的反馈来改进人工标注的基线,进一步提高了匹配的准确性。
关键设计:该研究使用了GPT-4o作为核心的语言模型,并使用51个合成电子健康记录(EHRs)进行实验。在匹配过程中,研究人员将患者信息和试验资格标准输入到GPT-4o中,并要求GPT-4o判断患者是否符合试验要求。为了提高匹配的准确性,研究人员还利用LLM的反馈来修正人工标注的基线。具体来说,当LLM的判断与人工标注的基线不一致时,研究人员会仔细检查人工标注的基线,并根据LLM的反馈进行修正。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在识别相关候选试验的准确率达到93.3%,在标准层面上将患者信息与人类专家定义的基线进行匹配时,初步准确率达到88.0%。通过LLM反馈发现,最初被认为不正确的标准中有39.3%是模糊的或注释不准确的,在完善人类基线后,模型总准确率达到92.7%。该方法甚至优于合格医生的表现。
🎯 应用场景
该研究成果可应用于临床决策支持系统,帮助医生快速准确地为患者匹配合适的临床试验,提高患者的治疗效率和生存率。此外,该方法还可以扩展到其他疾病领域,为更多患者提供个性化的治疗方案。未来,该技术有望整合到电子健康记录系统中,实现临床试验匹配的自动化和智能化。
📄 摘要(原文)
Matching cancer patients to clinical trials is essential for advancing treatment and patient care. However, the inconsistent format of medical free text documents and complex trial eligibility criteria make this process extremely challenging and time-consuming for physicians. We investigated whether the entire trial matching process - from identifying relevant trials among 105,600 oncology-related clinical trials on clinicaltrials.gov to generating criterion-level eligibility matches - could be automated using Large Language Models (LLMs). Using GPT-4o and a set of 51 synthetic Electronic Health Records (EHRs), we demonstrate that our approach identifies relevant candidate trials in 93.3% of cases and achieves a preliminary accuracy of 88.0% when matching patient-level information at the criterion level against a baseline defined by human experts. Utilizing LLM feedback reveals that 39.3% criteria that were initially considered incorrect are either ambiguous or inaccurately annotated, leading to a total model accuracy of 92.7% after refining our human baseline. In summary, we present an end-to-end pipeline for clinical trial matching using LLMs, demonstrating high precision in screening and matching trials to individual patients, even outperforming the performance of qualified medical doctors. Our fully end-to-end pipeline can operate autonomously or with human supervision and is not restricted to oncology, offering a scalable solution for enhancing patient-trial matching in real-world settings.