Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

📄 arXiv: 2604.22061v1 📥 PDF

作者: Xiaodi Li, Yang Xiao, Munhwan Lee, Konstantinos Leventakos, Young J. Juhn, David Jones, Terence T. Sio, Wei Liu, Maria Vassilaki, Nansu Zong

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-23

备注: 31 pages, 7 figures


💡 一句话要点

提出轻量级检索增强生成与大语言模型建模框架,用于可扩展的患者-试验匹配。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 患者-试验匹配 检索增强生成 大型语言模型 电子健康记录 临床决策支持

📋 核心要点

  1. 现有患者-试验匹配方法计算成本高或难以处理非结构化临床数据,限制了可扩展性和泛化性。
  2. 提出一种轻量级框架,结合检索增强生成和LLM建模,分离信息提取和表示学习,降低计算复杂度。
  3. 实验表明,该方法在多个数据集上表现出与端到端LLM相当的性能,同时显著降低了计算成本。

📝 摘要(中文)

患者-试验匹配需要在冗长且异构的电子健康记录(EHRs)和复杂的入选标准上进行推理,这对可扩展性、泛化性和计算效率提出了重大挑战。现有方法要么依赖于使用大型语言模型(LLMs)进行全文档处理,计算成本高昂,要么使用传统机器学习方法,难以捕捉非结构化临床叙述。本文提出了一种轻量级框架,结合了检索增强生成和基于大型语言模型的建模,用于可扩展的患者-试验匹配。该框架明确分离了两个关键组件:检索增强生成用于从长EHR中识别临床相关片段,降低输入复杂度;大型语言模型用于将这些选定的片段编码为信息丰富的表示。这些表示通过降维进一步细化,并使用轻量级预测器进行建模,从而实现高效且可扩展的下游分类。我们在多个公共基准(n2c2、SIGIR、TREC 2021/2022)和来自Mayo Clinic的真实世界多模态数据集(MCPMD)上评估了所提出的方法。结果表明,基于检索的信息选择显著降低了计算负担,同时保留了临床上有意义的信号。我们进一步证明,冻结的LLM为结构化临床数据提供了强大的表示,而微调对于建模非结构化临床叙述至关重要。重要的是,所提出的轻量级pipeline实现了与端到端LLM方法相当的性能,但计算成本大大降低。

🔬 方法详解

问题定义:论文旨在解决患者-试验匹配问题,即如何高效准确地将患者的电子健康记录(EHRs)与临床试验的入选标准进行匹配。现有方法主要存在两个痛点:一是直接使用大型语言模型(LLMs)处理完整的EHR文档,计算成本非常高昂;二是使用传统的机器学习方法,难以有效捕捉EHR中非结构化临床叙述的关键信息。

核心思路:论文的核心思路是将患者-试验匹配任务分解为两个关键步骤:首先,利用检索增强生成(Retrieval-Augmented Generation, RAG)从冗长的EHR中提取出与试验入选标准相关的临床片段,从而显著降低输入LLM的文本长度;然后,利用LLM对这些片段进行编码,生成信息丰富的表示,并使用轻量级的预测器进行下游分类。这种解耦的设计旨在降低计算复杂度,同时保留临床相关信息。

技术框架:整体框架包含以下几个主要模块:1) 检索模块:使用RAG从EHR中检索相关片段。2) 编码模块:使用LLM(可以是冻结的或微调的)将检索到的片段编码为向量表示。3) 降维模块:对LLM生成的向量表示进行降维,以进一步降低计算成本。4) 预测模块:使用轻量级的分类器(如逻辑回归或支持向量机)基于降维后的向量表示进行患者-试验匹配。

关键创新:该方法最重要的创新点在于将检索增强生成与LLM建模相结合,形成一个轻量级的pipeline。与直接使用LLM处理完整EHR文档相比,该方法显著降低了计算成本,提高了可扩展性。此外,该方法还探索了冻结LLM和微调LLM在处理结构化和非结构化临床数据时的不同效果。

关键设计:论文中一些关键的设计包括:1) 使用不同的检索策略(如基于关键词的检索或基于语义相似度的检索)来选择相关片段。2) 探索不同的LLM架构(如BERT、RoBERTa等)作为编码器。3) 使用不同的降维技术(如PCA或t-SNE)来降低向量维度。4) 根据数据集的特点选择合适的分类器和损失函数。论文还提到,对于非结构化临床叙述,对LLM进行微调至关重要。

📊 实验亮点

实验结果表明,该方法在多个公共基准数据集(n2c2、SIGIR、TREC 2021/2022)和Mayo Clinic的真实世界多模态数据集(MCPMD)上均取得了良好的性能。与端到端LLM方法相比,该方法在保持相当性能的同时,显著降低了计算成本。特别地,检索模块有效减少了需要处理的文本量,而冻结的LLM在结构化数据上表现良好,微调的LLM在非结构化数据上表现更佳。

🎯 应用场景

该研究成果可应用于临床决策支持系统,辅助医生快速准确地为患者匹配合适的临床试验,提高患者参与临床研究的机会。此外,该方法也可推广到其他需要处理长文本和复杂推理的医疗领域,例如疾病诊断、药物研发等,具有重要的实际应用价值和潜在的社会效益。

📄 摘要(原文)

Patient-trial matching requires reasoning over long, heterogeneous electronic health records (EHRs) and complex eligibility criteria, posing significant challenges for scalability, generalization, and computational efficiency. Existing approaches either rely on full-document processing with large language models (LLMs), which is computationally expensive, or use traditional machine learning methods that struggle to capture unstructured clinical narratives. In this work, we propose a lightweight framework that combines retrieval-augmented generation and large language model-based modeling for scalable patient-trial matching. The framework explicitly separates two key components: retrieval-augmented generation is used to identify clinically relevant segments from long EHRs, reducing input complexity, while large language models are used to encode these selected segments into informative representations. These representations are further refined through dimensionality reduction and modeled using lightweight predictors, enabling efficient and scalable downstream classification. We evaluate the proposed approach on multiple public benchmarks (n2c2, SIGIR, TREC 2021/2022) and a real-world multimodal dataset from Mayo Clinic (MCPMD). Results show that retrieval-based information selection significantly reduces computational burden while preserving clinically meaningful signals. We further demonstrate that frozen LLMs provide strong representations for structured clinical data, whereas fine-tuning is essential for modeling unstructured clinical narratives. Importantly, the proposed lightweight pipeline achieves performance comparable to end-to-end LLM approaches with substantially lower computational cost.