Integrating Chain-of-Thought and Retrieval Augmented Generation Enhances Rare Disease Diagnosis from Clinical Notes
作者: Da Wu, Zhanliang Wang, Quan Nguyen, Kai Wang
分类: cs.CL, cs.AI, q-bio.GN, q-bio.QM
发布日期: 2025-03-15
备注: 31 pages, 3 figures
💡 一句话要点
结合CoT与RAG提升LLM在临床笔记中罕见病诊断的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 罕见病诊断 大型语言模型 思维链 检索增强生成 临床笔记 基因优先级排序 知识库 辅助诊断
📋 核心要点
- 现有LLM在罕见病基因优先级排序中表现不佳,尤其是在处理非结构化临床笔记时,缺乏领域知识和推理能力。
- 论文提出RAG驱动的CoT和CoT驱动的RAG两种方法,结合思维链和检索增强生成,模拟专家推理并引入外部知识。
- 实验表明,新方法显著提升了候选基因预测的准确性,尤其是在DeepSeek模型上,top-10基因准确率超过40%。
📝 摘要(中文)
背景:现有研究表明,大型语言模型(LLMs)在表型驱动的罕见病基因优先级排序方面存在困难。这些研究通常使用人类表型本体(HPO)术语来提示GPT和LLaMA等基础模型,以预测候选基因。然而,在实际应用中,基础模型并未针对临床诊断等领域特定任务进行优化,且输入通常是非结构化的临床笔记而非标准化术语。如何指导LLM从非结构化临床笔记中预测候选基因或疾病诊断仍然是一个主要挑战。方法:我们引入了RAG驱动的CoT和CoT驱动的RAG两种方法,结合了思维链(CoT)和检索增强生成(RAG)来分析临床笔记。一个包含五个问题的CoT协议模拟了专家的推理过程,而RAG则从HPO和OMIM等来源检索数据。我们在罕见病数据集上评估了这些方法,包括5,980个Phenopacket衍生的笔记、255个基于文献的叙述和来自费城儿童医院的220个内部临床笔记。结果:我们发现,包括Llama 3.3-70B-Instruct和DeepSeek-R1-Distill-Llama-70B在内的最新基础模型优于Llama 2和GPT-3.5等早期版本。我们还表明,RAG驱动的CoT和CoT驱动的RAG在从临床笔记中进行候选基因优先级排序方面均优于基础模型;特别是,这两种方法与DeepSeek主干网络结合使用,在Phenopacket衍生的临床笔记上实现了超过40%的top-10基因准确率。RAG驱动的CoT更适用于高质量的笔记,其中早期检索可以将后续推理步骤锚定在领域特定的证据中,而CoT驱动的RAG在处理冗长且嘈杂的笔记时具有优势。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理非结构化临床笔记时,进行罕见病基因优先级排序的难题。现有方法主要依赖于标准化的HPO术语,无法有效利用真实世界中大量的非结构化临床数据。此外,LLM在领域知识和推理能力上的不足也限制了其在临床诊断中的应用。
核心思路:论文的核心思路是将思维链(Chain-of-Thought, CoT)和检索增强生成(Retrieval Augmented Generation, RAG)相结合,以提升LLM在罕见病诊断中的性能。CoT模拟了专家的推理过程,通过一系列问题引导LLM逐步分析临床笔记。RAG则从外部知识库(如HPO和OMIM)检索相关信息,为LLM提供领域知识支持。
技术框架:论文提出了两种技术框架:RAG驱动的CoT和CoT驱动的RAG。在RAG驱动的CoT中,首先使用RAG从外部知识库检索相关信息,然后将检索到的信息作为CoT的输入,引导LLM进行推理。在CoT驱动的RAG中,首先使用CoT引导LLM进行初步推理,然后使用RAG检索与推理结果相关的信息,并将检索到的信息反馈给LLM,以进一步完善推理结果。
关键创新:论文的关键创新在于将CoT和RAG两种技术有机结合,并应用于罕见病诊断领域。RAG驱动的CoT和CoT驱动的RAG两种框架各有优势,前者更适用于高质量的临床笔记,后者更适用于冗长且嘈杂的临床笔记。这种结合充分利用了LLM的推理能力和外部知识库的领域知识,从而显著提升了罕见病诊断的准确性。
关键设计:CoT协议包含五个问题,旨在模拟专家在诊断罕见病时的推理过程。RAG模块使用FAISS进行向量相似度搜索,从HPO和OMIM等知识库中检索相关信息。实验中使用了多个LLM作为backbone,包括Llama 2、GPT-3.5、Llama 3.3-70B-Instruct和DeepSeek-R1-Distill-Llama-70B。评估指标包括top-10基因准确率。
📊 实验亮点
实验结果表明,RAG驱动的CoT和CoT驱动的RAG均优于传统的基础模型。特别是,当使用DeepSeek-R1-Distill-Llama-70B作为backbone时,在Phenopacket衍生的临床笔记上,两种方法的top-10基因准确率均超过40%,相较于其他模型有显著提升。RAG驱动的CoT在高质量笔记上表现更佳,而CoT驱动的RAG在处理冗长噪声数据时更具优势。
🎯 应用场景
该研究成果可应用于临床辅助诊断系统,帮助医生更准确地诊断罕见病。通过分析患者的临床笔记,系统可以预测候选基因,为基因检测提供指导,缩短诊断时间,并最终改善患者的治疗效果。此外,该方法还可以推广到其他医学领域的诊断任务中。
📄 摘要(原文)
Background: Several studies show that large language models (LLMs) struggle with phenotype-driven gene prioritization for rare diseases. These studies typically use Human Phenotype Ontology (HPO) terms to prompt foundation models like GPT and LLaMA to predict candidate genes. However, in real-world settings, foundation models are not optimized for domain-specific tasks like clinical diagnosis, yet inputs are unstructured clinical notes rather than standardized terms. How LLMs can be instructed to predict candidate genes or disease diagnosis from unstructured clinical notes remains a major challenge. Methods: We introduce RAG-driven CoT and CoT-driven RAG, two methods that combine Chain-of-Thought (CoT) and Retrieval Augmented Generation (RAG) to analyze clinical notes. A five-question CoT protocol mimics expert reasoning, while RAG retrieves data from sources like HPO and OMIM (Online Mendelian Inheritance in Man). We evaluated these approaches on rare disease datasets, including 5,980 Phenopacket-derived notes, 255 literature-based narratives, and 220 in-house clinical notes from Childrens Hospital of Philadelphia. Results: We found that recent foundations models, including Llama 3.3-70B-Instruct and DeepSeek-R1-Distill-Llama-70B, outperformed earlier versions such as Llama 2 and GPT-3.5. We also showed that RAG-driven CoT and CoT-driven RAG both outperform foundation models in candidate gene prioritization from clinical notes; in particular, both methods with DeepSeek backbone resulted in a top-10 gene accuracy of over 40% on Phenopacket-derived clinical notes. RAG-driven CoT works better for high-quality notes, where early retrieval can anchor the subsequent reasoning steps in domain-specific evidence, while CoT-driven RAG has advantage when processing lengthy and noisy notes.