Streamlining Systematic Reviews: A Novel Application of Large Language Models
作者: Fouad Trad, Ryan Yammine, Jana Charafeddine, Marlene Chakhtoura, Maya Rahme, Ghada El-Hajj Fuleihan, Ali Chehab
分类: cs.CL, cs.IR
发布日期: 2024-12-14
期刊: BMC Medical Research Methodology, 2025
DOI: 10.1186/s12874-025-02583-5
💡 一句话要点
提出基于大语言模型的系统综述自动化方法,显著提升文献筛选效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 系统综述 文献筛选 提示工程 检索增强生成
📋 核心要点
- 系统综述耗时,尤其在文献筛选阶段,传统方法和现有工具效率较低,存在自动化程度不足的问题。
- 利用大语言模型,结合提示工程和检索增强生成技术,构建自动化筛选系统,提升文献筛选的效率和准确性。
- 实验结果表明,该系统在文章排除率、特异性等方面表现出色,显著减少了人工筛选时间和工作量。
📝 摘要(中文)
系统综述(SRs)对于循证指南至关重要,但文献筛选耗时。本文提出并评估了一个基于大语言模型(LLM)的内部系统,用于自动化标题/摘要和全文筛选,解决了文献中的关键空白。该系统使用已完成的关于维生素D和跌倒的SR(14,439篇文章),采用提示工程进行标题/摘要筛选,并采用检索增强生成(RAG)进行全文筛选。该系统实现了99.5%的文章排除率(AER)、99.6%的特异性、0%的假阴性率(FNR)和100%的阴性预测值(NPV)。筛选后,仅需人工审查78篇文章,包括传统方法识别的所有20篇,从而将人工筛选时间减少了95.5%。相比之下,Rayyan(一种商业标题/摘要筛选工具)在包括Rayyan认为未定或可能包括的文章时,实现了72.1%的AER和5%的FNR。降低Rayyan的纳入阈值可将FNR提高到0%,但会增加筛选时间。通过解决两个筛选阶段,基于LLM的系统明显优于Rayyan和传统方法,在保持高准确性的同时,将总筛选时间减少到25.5小时。这些发现突出了LLM在SR工作流程中的变革潜力,提供了一种可扩展、高效且准确的解决方案,尤其是在缺乏自动化工具的全文筛选阶段。
🔬 方法详解
问题定义:系统综述中的文献筛选环节非常耗时,特别是全文筛选阶段,缺乏有效的自动化工具。现有方法,如Rayyan等,在准确率和效率上存在不足,容易漏掉相关文献,或者需要大量的人工干预,增加了研究成本和时间。
核心思路:利用大语言模型强大的文本理解和生成能力,结合提示工程和检索增强生成(RAG)技术,构建一个自动化筛选系统。通过提示工程优化LLM在标题/摘要筛选中的表现,利用RAG技术增强LLM在全文筛选中的信息检索和推理能力,从而提高筛选的准确性和效率。
技术框架:该系统包含两个主要阶段:标题/摘要筛选和全文筛选。在标题/摘要筛选阶段,使用提示工程,设计合适的提示语,引导LLM判断文献是否相关。在全文筛选阶段,使用RAG技术,首先从全文中检索相关信息,然后将检索到的信息和提示语一起输入LLM,进行相关性判断。整个流程旨在最大程度地减少人工干预,提高筛选效率。
关键创新:该研究的关键创新在于将LLM应用于系统综述的全文筛选阶段,并结合RAG技术,有效解决了传统方法在该阶段的不足。此外,通过提示工程优化LLM在标题/摘要筛选中的表现,进一步提高了整体筛选效率和准确性。与现有工具相比,该系统在准确率和效率上都有显著提升。
关键设计:在标题/摘要筛选阶段,提示语的设计至关重要,需要根据具体的研究问题进行优化。在全文筛选阶段,RAG技术的关键在于如何从全文中检索相关信息,以及如何将检索到的信息有效地融入LLM的输入中。具体的参数设置和模型选择可能需要根据实际情况进行调整。论文中未明确说明具体的参数设置、损失函数、网络结构等技术细节,这部分内容属于未知。
📊 实验亮点
该系统在维生素D和跌倒的系统综述中,实现了99.5%的文章排除率(AER)、99.6%的特异性、0%的假阴性率(FNR)和100%的阴性预测值(NPV)。与Rayyan相比,该系统在准确率和效率上均有显著提升,并将人工筛选时间减少了95.5%。
🎯 应用场景
该研究成果可广泛应用于医学、社会科学等领域的系统综述和meta分析中,加速循证医学证据的生成,为临床决策和政策制定提供更及时、可靠的依据。该方法还可扩展到其他需要大规模文献筛选的场景,如专利分析、竞争情报等。
📄 摘要(原文)
Systematic reviews (SRs) are essential for evidence-based guidelines but are often limited by the time-consuming nature of literature screening. We propose and evaluate an in-house system based on Large Language Models (LLMs) for automating both title/abstract and full-text screening, addressing a critical gap in the literature. Using a completed SR on Vitamin D and falls (14,439 articles), the LLM-based system employed prompt engineering for title/abstract screening and Retrieval-Augmented Generation (RAG) for full-text screening. The system achieved an article exclusion rate (AER) of 99.5%, specificity of 99.6%, a false negative rate (FNR) of 0%, and a negative predictive value (NPV) of 100%. After screening, only 78 articles required manual review, including all 20 identified by traditional methods, reducing manual screening time by 95.5%. For comparison, Rayyan, a commercial tool for title/abstract screening, achieved an AER of 72.1% and FNR of 5% when including articles Rayyan considered as undecided or likely to include. Lowering Rayyan's inclusion thresholds improved FNR to 0% but increased screening time. By addressing both screening phases, the LLM-based system significantly outperformed Rayyan and traditional methods, reducing total screening time to 25.5 hours while maintaining high accuracy. These findings highlight the transformative potential of LLMs in SR workflows by offering a scalable, efficient, and accurate solution, particularly for the full-text screening phase, which has lacked automation tools.