A systematic review of trial-matching pipelines using large language models

作者: Braxton A. Morrison, Madhumita Sushil, Jacob S. Young

分类: cs.CL, cs.AI

发布日期: 2025-09-13

备注: 28 pages, 3 figures

💡 一句话要点

利用大型语言模型进行临床试验匹配的系统性综述研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 临床试验匹配 大型语言模型 系统性综述 自然语言处理 肿瘤学

📋 核心要点

人工临床试验匹配耗时且易错，阻碍了新疗法的应用，因此需要更高效的解决方案。
本研究系统性地回顾了基于大型语言模型（LLM）的临床试验匹配方法，总结了现有研究的进展和局限性。
研究发现GPT-4在匹配和资格提取方面表现优异，但成本较高，同时指出了数据、成本和伦理等方面的挑战。

📝 摘要（中文）

将患者与临床试验选项进行匹配对于识别新的治疗方法至关重要，尤其是在肿瘤学领域。然而，手动匹配既费力又容易出错，导致招募延迟。包含大型语言模型（LLM）的流程提供了一个有希望的解决方案。本研究对2020年至2025年间发表于三个学术数据库和一个预印本服务器的研究进行了系统性综述，确定了基于LLM的临床试验匹配方法。在126篇独特的文章中，有31篇符合纳入标准。综述的研究集中于仅患者-标准匹配（n=4），仅患者-试验匹配（n=10），仅试验-患者匹配（n=2），仅二元资格分类（n=1）或组合任务（n=14）。16项研究使用了合成数据；14项使用了真实患者数据；1项同时使用了两者。数据集和评估指标的可变性限制了跨研究的可比性。在直接比较的研究中，GPT-4模型在匹配和资格提取方面始终优于其他模型，即使是经过微调的模型，但成本更高。有前景的策略包括使用GPT-4o模型等专有LLM进行零样本提示，高级检索方法，以及在将大型模型纳入医院基础设施不可行时，为了数据隐私而微调较小的开源模型。关键挑战包括访问足够大的真实世界数据集，以及与部署相关的挑战，例如降低成本，减轻幻觉风险，数据泄露和偏见。本综述总结了将LLM应用于临床试验匹配的进展，突出了有希望的方向和关键限制。标准化的指标，更真实的测试集，以及对成本效益和公平性的关注对于更广泛的部署至关重要。

🔬 方法详解

问题定义：临床试验匹配旨在为患者找到合适的试验，传统方法依赖人工，效率低且容易出错。现有基于LLM的方法在数据质量、模型选择、评估标准等方面存在差异，缺乏统一的框架和标准，难以进行有效比较和推广。此外，LLM的部署还面临成本、幻觉、数据泄露和偏见等挑战。

核心思路：本研究通过系统性综述，对现有基于LLM的临床试验匹配方法进行梳理和分析，旨在总结现有方法的优势和不足，识别有前景的研究方向，并为未来的研究提供指导。核心思路是整合现有研究成果，形成对该领域现状的全面认识，并为未来的研究提供方向。

技术框架：本研究的技术框架主要包括以下几个阶段：1) 文献检索：在多个学术数据库和预印本服务器中检索相关文献；2) 文献筛选：根据预定的纳入和排除标准筛选文献；3) 数据提取：从纳入的文献中提取关键信息，包括研究目标、方法、数据集、评估指标和结果；4) 综合分析：对提取的数据进行综合分析，总结现有方法的优势和不足，识别有前景的研究方向。

关键创新：本研究的关键创新在于对基于LLM的临床试验匹配方法进行了系统性的综述，全面总结了现有研究的进展和局限性。此外，本研究还识别了有前景的研究方向，并为未来的研究提供了指导。

关键设计：本研究的关键设计包括：1) 制定了明确的纳入和排除标准，确保纳入的文献具有代表性；2) 采用了标准化的数据提取表格，确保提取的数据具有一致性；3) 采用了严格的质量评估方法，确保纳入的文献具有较高的质量。

📊 实验亮点

研究表明，GPT-4模型在临床试验匹配和资格提取方面表现优于其他模型，即使是经过微调的模型。然而，GPT-4的成本较高。研究还发现，零样本提示、高级检索方法和微调小型开源模型是具有潜力的策略。研究强调了标准化指标、更真实的测试集以及对成本效益和公平性的关注对于更广泛部署的重要性。

🎯 应用场景

该研究成果可应用于临床决策支持系统，辅助医生为患者匹配合适的临床试验，加速新疗法的开发和应用。通过降低人工匹配的成本和提高效率，有望改善患者的治疗效果，并促进个性化医疗的发展。未来的研究可以集中在开发更高效、更可靠、更经济的LLM临床试验匹配系统。

📄 摘要（原文）

Matching patients to clinical trial options is critical for identifying novel treatments, especially in oncology. However, manual matching is labor-intensive and error-prone, leading to recruitment delays. Pipelines incorporating large language models (LLMs) offer a promising solution. We conducted a systematic review of studies published between 2020 and 2025 from three academic databases and one preprint server, identifying LLM-based approaches to clinical trial matching. Of 126 unique articles, 31 met inclusion criteria. Reviewed studies focused on matching patient-to-criterion only (n=4), patient-to-trial only (n=10), trial-to-patient only (n=2), binary eligibility classification only (n=1) or combined tasks (n=14). Sixteen used synthetic data; fourteen used real patient data; one used both. Variability in datasets and evaluation metrics limited cross-study comparability. In studies with direct comparisons, the GPT-4 model consistently outperformed other models, even finely-tuned ones, in matching and eligibility extraction, albeit at higher cost. Promising strategies included zero-shot prompting with proprietary LLMs like the GPT-4o model, advanced retrieval methods, and fine-tuning smaller, open-source models for data privacy when incorporation of large models into hospital infrastructure is infeasible. Key challenges include accessing sufficiently large real-world data sets, and deployment-associated challenges such as reducing cost, mitigating risk of hallucinations, data leakage, and bias. This review synthesizes progress in applying LLMs to clinical trial matching, highlighting promising directions and key limitations. Standardized metrics, more realistic test sets, and attention to cost-efficiency and fairness will be critical for broader deployment.

A systematic review of trial-matching pipelines using large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理