oRetrieval Augmented Generation for 10 Large Language Models and its Generalizability in Assessing Medical Fitness

作者: Yu He Ke, Liyuan Jin, Kabilan Elangovan, Hairil Rizal Abdullah, Nan Liu, Alex Tiong Heng Sia, Chai Rick Soh, Joshua Yi Min Tung, Jasmine Chiat Ling Ong, Chang-Fu Kuo, Shao-Chun Wu, Vesela P. Kovacheva, Daniel Shu Wei Ting

分类: cs.CL, cs.AI

发布日期: 2024-10-11

备注: arXiv admin note: substantial text overlap with arXiv:2402.01733

💡 一句话要点

利用检索增强生成技术（RAG）提升大型语言模型在医疗健康领域的适应性，尤其是在术前评估方面。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 医疗健康 术前评估 临床指南

📋 核心要点

大型语言模型在医疗领域应用受限，主要挑战在于缺乏专业临床知识，难以保证准确性和安全性。
论文提出利用检索增强生成（RAG）框架，将领域知识融入LLM，提升其在特定医疗任务中的表现。
实验结果表明，基于RAG的GPT4模型在术前评估任务中表现出色，准确率高达96.4%，且无幻觉。

📝 摘要（中文）

大型语言模型（LLMs）在医疗应用中展现出潜力，但通常缺乏专业的临床知识。检索增强生成（RAG）允许使用领域特定信息进行定制，使其适用于医疗保健。本研究评估了RAG模型在确定手术适应性和提供术前指导方面的准确性、一致性和安全性。我们使用35个本地和23个国际术前指南开发了LLM-RAG模型，并针对人工生成的响应对其进行了测试。总共评估了3,682个响应。临床文档使用Llamaindex进行处理，并评估了包括GPT3.5、GPT4和Claude-3在内的10个LLM。分析了14个临床场景，重点关注术前指导的7个方面。使用既定指南和专家判断来确定正确的响应，并将人工生成的答案作为比较。LLM-RAG模型在20秒内生成响应，明显快于临床医生（10分钟）。GPT4 LLM-RAG模型实现了最高的准确率（96.4% vs. 86.6%，p=0.016），没有幻觉，并产生了与临床医生相当的正确指导。结果在本地和国际指南中保持一致。这项研究证明了LLM-RAG模型在术前医疗保健任务中的潜力，突出了它们的效率、可扩展性和可靠性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在医疗领域应用时，由于缺乏专业临床知识而导致的准确性不足和安全性问题。现有方法难以有效利用领域知识，导致LLMs在处理特定医疗任务时表现不佳，例如术前评估。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，将外部知识库与LLM相结合。通过检索相关的临床指南和文献，为LLM提供必要的背景信息，从而提高其在特定医疗任务中的准确性和可靠性。这种方法允许LLM在生成响应时参考最新的医学知识，避免了幻觉和错误。

技术框架：整体框架包括以下几个主要阶段：1) 临床文档预处理：使用Llamaindex处理35个本地和23个国际术前指南，构建知识库。2) 问题输入：输入14个临床场景，每个场景关注术前指导的7个方面。3) 信息检索：根据输入的问题，从知识库中检索相关的临床指南和文献。4) 响应生成：使用LLM（如GPT3.5、GPT4和Claude-3）结合检索到的信息生成响应。5) 评估：将生成的响应与人工生成的响应进行比较，评估准确性、一致性和安全性。

关键创新：最重要的技术创新点在于将RAG框架应用于医疗领域，并针对术前评估任务进行了优化。与传统的LLM相比，RAG模型能够利用外部知识库，避免了对LLM进行大规模的重新训练，降低了成本和复杂性。此外，该研究还评估了不同LLM在RAG框架下的表现，为选择合适的LLM提供了参考。

关键设计：论文的关键设计包括：1) 使用Llamaindex构建高效的知识库索引。2) 选择合适的LLM作为生成器，并对其进行微调以适应医疗领域的特定任务。3) 设计了全面的评估指标，包括准确性、一致性和安全性，以确保RAG模型的可靠性。4) 针对14个临床场景，关注术前指导的7个方面，确保评估的全面性和代表性。

📊 实验亮点

实验结果表明，基于RAG的GPT4模型在术前评估任务中表现最佳，准确率高达96.4%，显著高于人工生成的响应（86.6%，p=0.016）。此外，该模型在20秒内即可生成响应，远快于临床医生（10分钟）。重要的是，GPT4 RAG模型没有产生任何幻觉，保证了信息的可靠性。

🎯 应用场景

该研究成果可应用于多种医疗场景，例如辅助医生进行术前评估、提供个性化的术前指导、自动生成医疗报告等。通过提高医疗服务的效率和准确性，有望改善患者的治疗效果和生活质量。未来，该技术还可扩展到其他医疗领域，如疾病诊断、药物研发等，具有广阔的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) show potential for medical applications but often lack specialized clinical knowledge. Retrieval Augmented Generation (RAG) allows customization with domain-specific information, making it suitable for healthcare. This study evaluates the accuracy, consistency, and safety of RAG models in determining fitness for surgery and providing preoperative instructions. We developed LLM-RAG models using 35 local and 23 international preoperative guidelines and tested them against human-generated responses. A total of 3,682 responses were evaluated. Clinical documents were processed using Llamaindex, and 10 LLMs, including GPT3.5, GPT4, and Claude-3, were assessed. Fourteen clinical scenarios were analyzed, focusing on seven aspects of preoperative instructions. Established guidelines and expert judgment were used to determine correct responses, with human-generated answers serving as comparisons. The LLM-RAG models generated responses within 20 seconds, significantly faster than clinicians (10 minutes). The GPT4 LLM-RAG model achieved the highest accuracy (96.4% vs. 86.6%, p=0.016), with no hallucinations and producing correct instructions comparable to clinicians. Results were consistent across both local and international guidelines. This study demonstrates the potential of LLM-RAG models for preoperative healthcare tasks, highlighting their efficiency, scalability, and reliability.

oRetrieval Augmented Generation for 10 Large Language Models and its Generalizability in Assessing Medical Fitness

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理