Evaluating Large Language Models for Evidence-Based Clinical Question Answering
作者: Can Wang, Yiqun Chen
分类: cs.CL
发布日期: 2025-09-13
💡 一句话要点
评估大型语言模型在循证临床问题回答中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 循证医学 临床问题回答 检索增强提示 基准数据集
📋 核心要点
- 现有大型语言模型在临床应用中展现潜力,但缺乏对其循证问题回答能力的系统评估。
- 论文构建多源基准数据集,并探索检索增强提示方法,以提升模型的事实准确性。
- 实验表明,模型在结构化指南上表现最佳,检索增强提示能显著提高回答准确率。
📝 摘要(中文)
大型语言模型(LLMs)在生物医学和临床应用中取得了显著进展,这促使我们对其回答细致的、基于证据的问题的能力进行严格评估。我们整理了一个多源基准,该基准来自Cochrane系统评价和临床指南,包括美国心脏协会的结构化建议和保险公司使用的叙述性指导。使用GPT-4o-mini和GPT-5,我们观察到跨来源和临床领域的一致性能模式:在结构化指南建议上的准确率最高(90%),在叙述性指南和系统评价问题上的准确率较低(60-70%)。我们还发现准确率与基础系统评价的引用次数之间存在很强的相关性,引用次数每增加一倍,正确答案的几率大约增加30%。当提供上下文信息时,模型显示出适度的证据质量推理能力。当我们结合检索增强提示时,提供黄金来源摘要将先前不正确项目的准确率提高到0.79;提供前3个PubMed摘要(按语义相关性排序)将准确率提高到0.23,而随机摘要降低准确率(0.10,在温度变化范围内)。这些影响在GPT-4o-mini中得到了反映,这强调了来源清晰度和有针对性的检索——而不仅仅是模型大小——驱动着性能。总的来说,我们的结果突出了LLM在循证临床问题回答中的希望和当前局限性。检索增强提示作为一种有用的策略出现,可以提高事实准确性和与来源证据的一致性,而按专业和问题类型分层评估仍然是理解当前知识访问和将模型性能置于上下文中必不可少的。
🔬 方法详解
问题定义:论文旨在评估大型语言模型在回答循证临床问题方面的能力。现有方法缺乏对模型在不同类型临床证据(如系统评价、临床指南)上的表现进行细致评估,并且模型可能无法有效利用外部知识来提高回答准确性。
核心思路:论文的核心思路是通过构建一个多源基准数据集,并结合检索增强提示方法,来系统地评估和提升大型语言模型在循证临床问题回答方面的能力。通过分析模型在不同类型证据上的表现,以及检索增强提示对准确率的影响,来揭示模型的优势和局限性。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据集构建:从Cochrane系统评价、临床指南等多个来源收集临床问题和答案,构建多源基准数据集。2) 模型评估:使用GPT-4o-mini和GPT-5等大型语言模型,在基准数据集上进行评估,分析模型在不同类型证据上的表现。3) 检索增强提示:结合检索增强提示方法,为模型提供相关的外部知识,以提高回答准确性。4) 结果分析:分析实验结果,揭示模型的优势和局限性,并探讨检索增强提示对准确率的影响。
关键创新:论文的关键创新在于:1) 构建了一个多源基准数据集,用于评估大型语言模型在循证临床问题回答方面的能力。2) 探索了检索增强提示方法,并证明其可以显著提高模型的回答准确性。3) 细致地分析了模型在不同类型证据上的表现,揭示了模型的优势和局限性。
关键设计:在检索增强提示方面,论文尝试了多种策略,包括提供黄金来源摘要、提供前3个PubMed摘要(按语义相关性排序)以及提供随机摘要。实验结果表明,提供黄金来源摘要的效果最佳,而提供随机摘要反而会降低准确率。此外,论文还分析了引用次数对模型准确率的影响,发现引用次数每增加一倍,正确答案的几率大约增加30%。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o-mini和GPT-5在结构化指南建议上的准确率最高(90%),在叙述性指南和系统评价问题上的准确率较低(60-70%)。检索增强提示能显著提高回答准确率,提供黄金来源摘要将先前不正确项目的准确率提高到0.79,提供前3个PubMed摘要将准确率提高到0.23。引用次数与准确率之间存在强相关性,引用次数每增加一倍,正确答案的几率大约增加30%。
🎯 应用场景
该研究成果可应用于智能临床决策支持系统,帮助医生快速准确地获取循证医学证据,辅助诊断和治疗。通过提升大型语言模型在循证问题回答方面的能力,可以提高医疗服务的质量和效率,并为患者提供更可靠的医疗建议。未来,该技术有望应用于远程医疗、健康咨询等领域。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated substantial progress in biomedical and clinical applications, motivating rigorous evaluation of their ability to answer nuanced, evidence-based questions. We curate a multi-source benchmark drawing from Cochrane systematic reviews and clinical guidelines, including structured recommendations from the American Heart Association and narrative guidance used by insurers. Using GPT-4o-mini and GPT-5, we observe consistent performance patterns across sources and clinical domains: accuracy is highest on structured guideline recommendations (90%) and lower on narrative guideline and systematic review questions (60--70%). We also find a strong correlation between accuracy and the citation count of the underlying systematic reviews, where each doubling of citations is associated with roughly a 30% increase in the odds of a correct answer. Models show moderate ability to reason about evidence quality when contextual information is supplied. When we incorporate retrieval-augmented prompting, providing the gold-source abstract raises accuracy on previously incorrect items to 0.79; providing top 3 PubMed abstracts (ranked by semantic relevance) improves accuracy to 0.23, while random abstracts reduce accuracy (0.10, within temperature variation). These effects are mirrored in GPT-4o-mini, underscoring that source clarity and targeted retrieval -- not just model size -- drive performance. Overall, our results highlight both the promise and current limitations of LLMs for evidence-based clinical question answering. Retrieval-augmented prompting emerges as a useful strategy to improve factual accuracy and alignment with source evidence, while stratified evaluation by specialty and question type remains essential to understand current knowledge access and to contextualize model performance.