The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review

📄 arXiv: 2409.04600v1 📥 PDF

作者: Dmitry Scherbakov, Nina Hubig, Vinita Jansari, Alexander Bakumenko, Leslie A. Lenert

分类: cs.DL, cs.AI

发布日期: 2024-09-06

备注: 18 main pages with 5 figures and 1 table, references, followed by supplementary materials

期刊: Journal of the American Medical Informatics Association. 2025 May 7:ocaf063

DOI: 10.1093/jamia/ocaf063


💡 一句话要点

利用大型语言模型(LLM)进行文献综述:LLM自动化系统评价

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文献综述 自动化 系统评价 自然语言处理

📋 核心要点

  1. 传统文献综述耗时耗力,现有方法难以有效应对海量文献信息。
  2. 利用LLM自动化文献综述流程,聚焦文献搜索、筛选、数据提取等关键环节。
  3. 实验表明,GPT系列模型在数据提取方面优于BERT,但在标题摘要筛选方面略逊。

📝 摘要(中文)

本研究旨在总结大型语言模型(LLM)在科学文献综述创建过程中的应用。我们考察了综述中可以自动化的各个阶段,并评估了该领域当前最先进的研究项目。研究人员于2024年6月在PubMed、Scopus、Dimensions和Google Scholar数据库中进行了检索。筛选和提取过程在Covidence中进行,借助了使用OpenAI gpt-4o模型的LLM插件。ChatGPT用于清理提取的数据并生成手稿中图表的代码,ChatGPT和Scite.ai用于起草手稿的所有部分,除了方法和讨论部分。结果显示,共检索到3,788篇文章,其中172项研究符合最终综述的条件。ChatGPT和基于GPT的LLM成为综述自动化中最主要的架构(n=126, 73.2%)。发现了大量的综述自动化项目,但只有少数论文(n=26, 15.1%)是实际在创建过程中使用了LLM的综述。大多数引用集中在综述的特定阶段的自动化,例如搜索出版物(n=60, 34.9%)和数据提取(n=54, 31.4%)。在比较基于GPT和基于BERT的模型的综合性能时,前者在数据提取方面表现更好,平均精确度为83.0%(SD=10.4),召回率为86.0%(SD=9.8),但在标题和摘要筛选阶段的准确性略低(Maccuracy=77.3%,SD=13.0)。我们的LLM辅助系统评价揭示了大量与使用LLM进行综述自动化相关的研究项目。结果看起来很有希望,我们预计LLM将在不久的将来改变科学综述的进行方式。

🔬 方法详解

问题定义:该论文旨在解决传统文献综述过程耗时、效率低下的问题。现有方法在处理大量文献时面临信息过载、筛选困难、数据提取繁琐等痛点,导致综述质量和效率难以保证。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,自动化文献综述的各个阶段,包括文献搜索、筛选、数据提取等,从而提高综述效率和质量。通过LLM对文献进行语义理解和信息抽取,可以快速定位相关研究,并提取关键数据。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 人工检索:在PubMed、Scopus、Dimensions和Google Scholar等数据库中进行文献检索。2) LLM辅助筛选:使用Covidence平台和OpenAI gpt-4o模型插件进行文献筛选。3) 数据提取:利用LLM提取文献中的关键信息。4) 数据清洗与分析:使用ChatGPT清理提取的数据,并生成图表。5) 论文撰写:使用ChatGPT和Scite.ai辅助撰写论文。

关键创新:该研究的关键创新在于将LLM应用于文献综述的整个流程,而不仅仅是某个特定阶段。通过整合不同的LLM工具(如ChatGPT、GPT-4o、Scite.ai),实现了文献综述的自动化和智能化。此外,该研究还对不同LLM模型在文献综述不同阶段的性能进行了比较分析。

关键设计:研究中使用了OpenAI的GPT系列模型(如GPT-4o、ChatGPT)进行数据提取、数据清洗和论文撰写。具体的技术细节包括:使用GPT-4o模型插件进行文献筛选,使用ChatGPT进行数据清洗和图表生成,使用ChatGPT和Scite.ai辅助论文撰写。研究人员还比较了GPT系列模型和BERT模型在数据提取和文献筛选方面的性能。

📊 实验亮点

研究结果表明,基于GPT的LLM在数据提取方面表现优异,平均精确度达到83.0%(SD=10.4),召回率达到86.0%(SD=9.8)。虽然在标题和摘要筛选阶段的准确性略低于BERT模型(Maccuracy=77.3%,SD=13.0),但整体而言,LLM在文献综述自动化方面展现出巨大的潜力。

🎯 应用场景

该研究成果可广泛应用于医学、生物学、工程学等各个领域的科学研究。通过自动化文献综述流程,研究人员可以更高效地获取和分析相关研究信息,从而加速科研进程,提高研究质量。未来,该技术有望集成到专业的科研平台中,为研究人员提供智能化的文献综述服务。

📄 摘要(原文)

Objective: This study aims to summarize the usage of Large Language Models (LLMs) in the process of creating a scientific review. We look at the range of stages in a review that can be automated and assess the current state-of-the-art research projects in the field. Materials and Methods: The search was conducted in June 2024 in PubMed, Scopus, Dimensions, and Google Scholar databases by human reviewers. Screening and extraction process took place in Covidence with the help of LLM add-on which uses OpenAI gpt-4o model. ChatGPT was used to clean extracted data and generate code for figures in this manuscript, ChatGPT and Scite.ai were used in drafting all components of the manuscript, except the methods and discussion sections. Results: 3,788 articles were retrieved, and 172 studies were deemed eligible for the final review. ChatGPT and GPT-based LLM emerged as the most dominant architecture for review automation (n=126, 73.2%). A significant number of review automation projects were found, but only a limited number of papers (n=26, 15.1%) were actual reviews that used LLM during their creation. Most citations focused on automation of a particular stage of review, such as Searching for publications (n=60, 34.9%), and Data extraction (n=54, 31.4%). When comparing pooled performance of GPT-based and BERT-based models, the former were better in data extraction with mean precision 83.0% (SD=10.4), and recall 86.0% (SD=9.8), while being slightly less accurate in title and abstract screening stage (Maccuracy=77.3%, SD=13.0). Discussion/Conclusion: Our LLM-assisted systematic review revealed a significant number of research projects related to review automation using LLMs. The results looked promising, and we anticipate that LLMs will change in the near future the way the scientific reviews are conducted.