Answering real-world clinical questions using large language model based systems

📄 arXiv: 2407.00541v1 📥 PDF

作者: Yen Sia Low, Michael L. Jackson, Rebecca J. Hyde, Robert E. Brown, Neil M. Sanghavi, Julian D. Baldwin, C. William Pike, Jananee Muralidharan, Gavin Hui, Natasha Alexander, Hadeel Hassan, Rahul V. Nene, Morgan Pike, Courtney J. Pokrzywa, Shivam Vedak, Adam Paul Yan, Dong-han Yao, Amy R. Zipursky, Christina Dinh, Philip Ballentine, Dan C. Derieg, Vladimir Polony, Rehan N. Chawdry, Jordan Davies, Brigham B. Hyde, Nigam H. Shah, Saurabh Gombar

分类: cs.CL, cs.AI, cs.IR

发布日期: 2024-06-29

备注: 28 pages (2 figures, 3 tables) inclusive of 8 pages of supplemental materials (4 supplemental figures and 4 supplemental tables)


💡 一句话要点

利用大型语言模型系统回答真实临床问题,RAG和Agentic LLM表现突出

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床决策支持 检索增强生成 Agentic LLM 真实世界数据

📋 核心要点

  1. 现有医疗决策支持系统缺乏针对特定患者情境的证据,通用LLM直接应用效果不佳。
  2. 论文探索RAG和Agentic LLM在临床问题解答中的应用,旨在提高证据相关性和可操作性。
  3. 实验表明,RAG和Agentic LLM系统显著提升了临床问题解答的质量,ChatRWD表现最佳。

📝 摘要(中文)

医疗决策常常受限于缺乏相关和可信的文献,以及难以将现有研究应用于特定患者。大型语言模型(LLM)有望通过总结已发表文献或基于真实世界数据(RWD)生成新的研究来解决这些挑战。我们评估了五个基于LLM的系统回答50个临床问题的能力,并由九位独立医生审查了答案的相关性、可靠性和可操作性。通用LLM(ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5)很少产生被认为是相关且基于证据的答案(2%-10%)。相比之下,基于检索增强生成(RAG)和Agentic LLM的系统产生了24%(OpenEvidence)到58%(ChatRWD)的问题的相关且基于证据的答案。只有Agentic ChatRWD能够回答新问题,优于其他LLM(65% vs. 0-9%)。结果表明,虽然通用LLM不应直接使用,但基于RAG的证据总结专用系统和协同生成新证据的系统将提高患者护理相关证据的可用性。

🔬 方法详解

问题定义:论文旨在解决临床医生在寻找和应用医学证据时遇到的困难,现有方法,如直接使用通用LLM,无法提供相关、可靠和可操作的答案。痛点在于通用LLM缺乏领域知识和针对特定患者情境的推理能力。

核心思路:论文的核心思路是利用RAG(检索增强生成)和Agentic LLM来弥补通用LLM的不足。RAG通过检索相关文献来增强LLM的知识,Agentic LLM则通过自主规划和执行步骤来解决复杂问题。

技术框架:论文评估了五种基于LLM的系统:ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5、OpenEvidence(RAG)和ChatRWD(Agentic LLM)。OpenEvidence使用RAG框架,通过检索相关医学文献来生成答案。ChatRWD则采用Agentic LLM框架,能够自主规划步骤并生成新的研究证据。

关键创新:关键创新在于将RAG和Agentic LLM应用于临床问题解答。Agentic LLM能够生成新的研究证据,这与传统的证据总结方法有本质区别。ChatRWD系统能够回答新问题,表明其具有更强的推理和泛化能力。

关键设计:论文使用了50个临床问题作为评估数据集,并由九位独立医生对答案进行评估。评估指标包括相关性、可靠性和可操作性。具体的技术细节,如RAG的检索策略、Agentic LLM的规划算法等,论文中未详细描述,属于未知。

📊 实验亮点

实验结果表明,通用LLM在回答临床问题时表现不佳(2%-10%的相关性和证据支持)。相比之下,RAG系统OpenEvidence的相关性和证据支持率达到24%,Agentic LLM系统ChatRWD达到58%。ChatRWD在回答新问题方面的表现显著优于其他LLM(65% vs. 0-9%)。

🎯 应用场景

该研究成果可应用于临床决策支持系统,帮助医生快速找到相关、可靠和可操作的医学证据,从而提高诊疗效率和患者护理质量。未来,该技术有望扩展到其他专业领域,为各行各业提供更智能的知识服务。

📄 摘要(原文)

Evidence to guide healthcare decisions is often limited by a lack of relevant and trustworthy literature as well as difficulty in contextualizing existing research for a specific patient. Large language models (LLMs) could potentially address both challenges by either summarizing published literature or generating new studies based on real-world data (RWD). We evaluated the ability of five LLM-based systems in answering 50 clinical questions and had nine independent physicians review the responses for relevance, reliability, and actionability. As it stands, general-purpose LLMs (ChatGPT-4, Claude 3 Opus, Gemini Pro 1.5) rarely produced answers that were deemed relevant and evidence-based (2% - 10%). In contrast, retrieval augmented generation (RAG)-based and agentic LLM systems produced relevant and evidence-based answers for 24% (OpenEvidence) to 58% (ChatRWD) of questions. Only the agentic ChatRWD was able to answer novel questions compared to other LLMs (65% vs. 0-9%). These results suggest that while general-purpose LLMs should not be used as-is, a purpose-built system for evidence summarization based on RAG and one for generating novel evidence working synergistically would improve availability of pertinent evidence for patient care.