Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines

作者: Matthew Lewis, Samuel Thio, Amy Roberts, Catherine Siju, Whoasif Mukit, Rebecca Kuruvilla, Zhangshu Joshua Jiang, Niko Möller-Grell, Aditya Borakati, Richard JB Dobson, Spiros Denaxas

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-10-03 (更新: 2025-12-14)

💡 一句话要点

提出RAG系统，利用LLM高效查询英国NICE临床指南，提升医疗决策效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 临床指南 医疗决策支持 混合嵌入 自然语言处理 RAG系统

📋 核心要点

临床指南信息量大且分散，医护人员难以快速获取所需信息，影响决策效率。
构建RAG系统，通过混合嵌入检索相关指南片段，并利用LLM生成精准答案。
实验表明，RAG系统显著提升了答案的准确性和安全性，专家评估准确率高达98.7%。

📝 摘要（中文）

本文提出了一种检索增强生成（RAG）系统，用于利用大型语言模型（LLM）查询英国国家卫生与临床优化研究所（NICE）的临床指南。这些指南内容冗长且数量庞大，限制了其在时间紧张的医疗系统中的应用。该项目旨在创建一个能够响应自然语言查询，并为用户提供精确匹配信息的系统。该系统的检索架构由混合嵌入机制构成，在包含三份指南中提取的10195个文本块的语料库上进行了评估，在7901个查询上实现了0.814的平均倒数排名（MRR），以及首个文本块81%的召回率和前十个文本块99.1%的召回率。RAG系统在生成阶段的影响最为显著。在人工标注的70个问答对数据集上，RAG增强模型表现出显著的性能提升。答案的忠实度（即答案是否由源文本支持）提高了64.7个百分点，RAG增强的O4-Mini模型达到了99.5%，显著优于医学领域的Meditron3-8B LLM（43%）。七位领域专家（SME）的临床评估进一步验证了这些发现，GPT-4.1实现了98.7%的准确率，同时与O4-Mini相比，不安全响应减少了67%（从每位评估者3.0次降至1.0次）。这项研究表明，RAG是一种有效、可靠且可扩展的方法，可用于在医疗保健领域应用生成式人工智能，从而经济高效地访问医疗指南。

🔬 方法详解

问题定义：临床医生在日常工作中需要查阅大量的临床指南，例如英国NICE指南，但这些指南通常篇幅很长，信息密度高，导致查找特定信息非常耗时。现有的搜索方法可能无法精确地定位到与查询相关的段落，或者返回的信息不够简洁明了，无法直接用于临床决策。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，将信息检索和文本生成结合起来。首先，通过高效的检索模块从大量的临床指南中找到与用户查询相关的段落；然后，利用大型语言模型（LLM）对检索到的段落进行理解和总结，生成简洁、准确的答案。这样既可以利用LLM的生成能力，又可以避免LLM在不了解具体指南内容的情况下产生幻觉。

技术框架：该RAG系统主要包含两个阶段：检索阶段和生成阶段。在检索阶段，首先将NICE指南分割成小的文本块，并使用混合嵌入模型（可能是结合了词嵌入和句子嵌入）对这些文本块进行编码。当用户提出查询时，也使用相同的嵌入模型对查询进行编码，然后在嵌入空间中找到与查询最相关的文本块。在生成阶段，将查询和检索到的文本块一起输入到LLM中，LLM根据这些信息生成答案。

关键创新：该论文的关键创新在于针对临床指南的特点，设计了一个高效的检索模块，并将其与LLM相结合。混合嵌入机制可能是一个重要的创新点，因为它能够更好地捕捉文本块和查询之间的语义关系。此外，对RAG系统在临床场景下的有效性和安全性进行了全面的评估，包括忠实度评估和专家评估。

关键设计：论文中可能涉及的关键设计包括：文本块的大小如何选择？混合嵌入模型具体是如何构建的？使用了哪些LLM？生成答案时使用了哪些提示工程（prompt engineering）技巧？如何评估答案的忠实度？这些细节对于RAG系统的性能至关重要，但摘要中没有详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RAG系统在查询NICE临床指南时表现出色。混合嵌入机制实现了0.814的MRR，前10个检索块的召回率高达99.1%。RAG增强的O4-Mini模型在忠实度方面提升了64.7个百分点，达到99.5%，显著优于Meditron3-8B。领域专家评估显示，GPT-4.1的准确率高达98.7%，且不安全响应减少了67%。

🎯 应用场景

该研究成果可应用于临床决策支持系统，帮助医生快速查找和理解临床指南，提高诊疗效率和质量。此外，该方法还可推广到其他专业领域，例如法律、金融等，用于处理大量文档并提供精准的问答服务。未来，该系统有望集成到电子病历系统中，为医生提供更便捷的临床决策支持。

📄 摘要（原文）

This paper presents the development and evaluation of a Retrieval-Augmented Generation (RAG) system for querying the United Kingdom's National Institute for Health and Care Excellence (NICE) clinical guidelines using Large Language Models (LLMs). The extensive length and volume of these guidelines can impede their utilisation within a time-constrained healthcare system, a challenge this project addresses through the creation of a system capable of providing users with precisely matched information in response to natural language queries. The system's retrieval architecture, composed of a hybrid embedding mechanism, was evaluated against a corpus of 10,195 text chunks derived from three hundred guidelines. It demonstrates high performance, with a Mean Reciprocal Rank (MRR) of 0.814, a Recall of 81% at the first chunk and of 99.1% within the top ten retrieved chunks, when evaluated on 7901 queries. The most significant impact of the RAG system was observed during the generation phase. When evaluated on a manually curated dataset of seventy question-answer pairs, RAG-enhanced models showed substantial gains in performance. Faithfulness, the measure of whether an answer is supported by the source text, was increased by 64.7 percentage points to 99.5% for the RAG-enhanced O4-Mini model and significantly outperformed the medical-focused Meditron3-8B LLM, which scored 43%. Clinical evaluation by seven Subject Matter Experts (SMEs) further validated these findings, with GPT-4.1 achieving 98.7% accuracy while reducing unsafe responses by 67% compared to O4-Mini (from 3.0 to 1.0 per evaluator). This study thus establishes RAG as an effective, reliable, and scalable approach for applying generative AI in healthcare, enabling cost-effective access to medical guidelines.

Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理