Can Large Language Models Match the Conclusions of Systematic Reviews?

📄 arXiv: 2505.22787v1 📥 PDF

作者: Christopher Polzak, Alejandro Lozano, Min Woo Sun, James Burgess, Yuhui Zhang, Kevin Wu, Serena Yeung-Levy

分类: cs.CL

发布日期: 2025-05-28


💡 一句话要点

MedEvidence基准测试揭示大型语言模型在系统评价结论匹配方面与临床专家存在差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 系统评价 循证医学 基准测试 临床决策 自然语言处理 医学人工智能

📋 核心要点

  1. 现有方法难以应对科学文章的爆炸式增长,专家系统评价耗时耗力,自动化需求迫切。
  2. 论文构建MedEvidence基准,旨在评估大型语言模型在匹配专家系统评价结论方面的能力。
  3. 实验表明,现有LLM在科学怀疑态度、长文本处理和避免过度自信方面存在不足。

📝 摘要(中文)

系统评价(SR)是专家总结和分析各个研究的证据,从而提供特定主题见解的基石,对循证临床决策、研究和政策至关重要。鉴于科学文章呈指数级增长,人们越来越关注使用大型语言模型(LLM)来自动化SR生成。然而,LLM批判性评估证据和跨多个文档进行推理,以达到与领域专家相同水平的推荐能力仍然不明确。因此,我们提出问题:当LLM访问与临床专家编写的系统评价相同研究时,它们能否匹配系统评价的结论?为了探索这个问题,我们提出了MedEvidence,这是一个将100个SR的发现与它们所基于的研究配对的基准。我们在MedEvidence上对24个LLM进行了基准测试,包括推理、非推理、医学专家和不同规模的模型(从7B到700B)。通过我们的系统评估,我们发现推理不一定能提高性能,更大的模型并不总能产生更大的收益,并且基于知识的微调会降低MedEvidence的准确性。相反,大多数模型表现出相似的行为:性能往往随着token长度的增加而降低,它们的反应表现出过度自信,并且与人类专家相反,所有模型都缺乏对低质量发现的科学怀疑态度。这些结果表明,即使这些系统已经被临床医生部署和使用,但在LLM能够可靠地匹配专家进行的SR的观察结果之前,还需要做更多的工作。我们向更广泛的研究社区发布我们的代码库和基准,以进一步研究基于LLM的SR系统。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在系统评价(SR)任务中的表现,即LLM能否在给定相同研究的情况下,得出与临床专家撰写的SR相同的结论。现有方法依赖人工进行系统评价,耗时且成本高昂。利用LLM自动化SR生成面临的痛点在于,LLM能否像专家一样批判性地评估证据并进行跨文档推理,以及现有LLM在处理长文本、保持科学怀疑态度和避免过度自信方面存在不足。

核心思路:论文的核心思路是通过构建一个基准数据集MedEvidence,将SR的结论与其所基于的研究配对,然后使用该基准来系统地评估各种LLM在匹配SR结论方面的能力。通过分析LLM的性能,揭示其在SR任务中的优势和局限性,从而指导未来LLM在自动化SR生成方面的研究方向。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建MedEvidence基准数据集,该数据集包含100个SR的结论以及支持这些结论的研究论文;2) 选择24个具有代表性的LLM进行基准测试,这些模型涵盖了不同规模(7B-700B)、不同架构(推理、非推理)以及医学专业模型;3) 设计评估指标,用于衡量LLM生成的结论与SR结论的匹配程度;4) 分析实验结果,识别LLM在SR任务中的优势和局限性。

关键创新:论文的关键创新在于:1) 构建了MedEvidence基准数据集,为评估LLM在SR任务中的表现提供了一个标准化的平台;2) 系统地评估了多种LLM在SR任务中的性能,揭示了现有LLM在科学怀疑态度、长文本处理和避免过度自信等方面存在的不足;3) 发现推理能力和模型规模的增加并不一定能提高LLM在SR任务中的性能,而知识型微调反而会降低准确性。

关键设计:论文的关键设计包括:1) MedEvidence数据集的构建,需要确保SR结论与其所基于的研究之间的对应关系准确无误;2) LLM的选择,需要涵盖不同规模、不同架构以及医学专业模型,以保证评估结果的全面性;3) 评估指标的设计,需要能够准确衡量LLM生成的结论与SR结论的匹配程度,例如可以使用ROUGE、BLEU等指标,或者设计专门的指标来评估LLM的科学怀疑态度。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,现有LLM在MedEvidence基准上的表现与临床专家存在差距。推理能力和模型规模的增加并不一定能提高性能,知识型微调反而会降低准确性。所有模型都缺乏对低质量研究结果的科学怀疑态度,且性能随着token长度的增加而降低。

🎯 应用场景

该研究成果可应用于辅助临床医生进行循证决策、加速科研成果转化、辅助政策制定者进行科学决策。未来,通过改进LLM的科学怀疑态度和长文本处理能力,有望实现系统评价的自动化生成,大幅提升效率。

📄 摘要(原文)

Systematic reviews (SR), in which experts summarize and analyze evidence across individual studies to provide insights on a specialized topic, are a cornerstone for evidence-based clinical decision-making, research, and policy. Given the exponential growth of scientific articles, there is growing interest in using large language models (LLMs) to automate SR generation. However, the ability of LLMs to critically assess evidence and reason across multiple documents to provide recommendations at the same proficiency as domain experts remains poorly characterized. We therefore ask: Can LLMs match the conclusions of systematic reviews written by clinical experts when given access to the same studies? To explore this question, we present MedEvidence, a benchmark pairing findings from 100 SRs with the studies they are based on. We benchmark 24 LLMs on MedEvidence, including reasoning, non-reasoning, medical specialist, and models across varying sizes (from 7B-700B). Through our systematic evaluation, we find that reasoning does not necessarily improve performance, larger models do not consistently yield greater gains, and knowledge-based fine-tuning degrades accuracy on MedEvidence. Instead, most models exhibit similar behavior: performance tends to degrade as token length increases, their responses show overconfidence, and, contrary to human experts, all models show a lack of scientific skepticism toward low-quality findings. These results suggest that more work is still required before LLMs can reliably match the observations from expert-conducted SRs, even though these systems are already deployed and being used by clinicians. We release our codebase and benchmark to the broader research community to further investigate LLM-based SR systems.