Large language models streamline automated systematic review: A preliminary study
作者: Xi Chen, Xue Zhang
分类: cs.IR, cs.AI, cs.CL
发布日期: 2025-01-09
备注: 25 pages, 9 figures
💡 一句话要点
利用大型语言模型自动化系统评价任务的初步研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 系统评价 自动化 文献筛选 数据提取 自然语言处理 研究设计 搜索策略
📋 核心要点
- 现有的系统评价方法通常耗时且依赖人工,效率低下,难以满足快速发展的研究需求。
- 本研究通过评估三种大型语言模型在系统评价任务中的表现,探索其在研究设计、搜索策略、文献筛选和数据提取中的应用潜力。
- 实验结果表明,GPT-4在搜索策略制定、文献筛选和数据提取方面表现优异,显示出LLMs在自动化系统评价中的应用前景。
📝 摘要(中文)
大型语言模型(LLMs)在自然语言处理任务中展现出潜力,有望实现系统评价的自动化。本研究评估了三种最先进的LLMs在系统评价任务中的表现,包括GPT-4、Claude-3和Mistral 8x7B。研究涵盖了四个系统评价任务:研究设计制定、搜索策略开发、文献筛选和数据提取。通过参考标准进行评估,结果显示Claude-3在PICO设计中表现最佳,而GPT-4在搜索策略制定、文献筛选和数据提取中表现优异。这些能力使得LLMs成为研究人员的有力辅助工具,值得进一步开发和验证。
🔬 方法详解
问题定义:本研究旨在解决系统评价任务中人工操作繁琐、效率低下的问题。现有方法往往依赖人工筛选和数据提取,导致时间成本高且易出错。
核心思路:通过评估大型语言模型(LLMs)在系统评价中的应用,探索其自动化潜力,旨在提高效率和准确性。选择GPT-4、Claude-3和Mistral 8x7B作为研究对象,比较其在不同任务中的表现。
技术框架:研究分为四个主要任务:研究设计制定、搜索策略开发、文献筛选和数据提取。每个任务均采用标准PICO设计和参考文献进行评估,使用5点Likert量表进行质量评估。
关键创新:本研究的创新点在于首次系统性地评估多种LLMs在系统评价中的表现,尤其是在复杂的文献筛选和数据提取任务中,展示了其潜在的自动化能力。
关键设计:在实验中,使用标准的PICO设计和20篇参考文献作为基准,评估模型输出的准确性、完整性和一致性。数据提取任务涉及1,120个数据点和3,360个字段,确保评估的全面性和严谨性。
📊 实验亮点
实验结果显示,Claude-3在PICO设计中表现最佳,而GPT-4在搜索策略制定和数据提取中显著优于其他模型。具体而言,GPT-4在文献筛选的准确率最高,Mistral和Claude-3紧随其后,显示出LLMs在系统评价中的强大潜力。
🎯 应用场景
该研究的成果可广泛应用于医学、社会科学等领域的系统评价,帮助研究人员快速高效地完成文献筛选和数据提取任务。未来,随着模型的进一步优化和验证,LLMs有望成为系统评价领域的标准工具,推动研究的自动化进程。
📄 摘要(原文)
Large Language Models (LLMs) have shown promise in natural language processing tasks, with the potential to automate systematic reviews. This study evaluates the performance of three state-of-the-art LLMs in conducting systematic review tasks. We assessed GPT-4, Claude-3, and Mistral 8x7B across four systematic review tasks: study design formulation, search strategy development, literature screening, and data extraction. Sourced from a previously published systematic review, we provided reference standard including standard PICO (Population, Intervention, Comparison, Outcome) design, standard eligibility criteria, and data from 20 reference literature. Three investigators evaluated the quality of study design and eligibility criteria using 5-point Liker Scale in terms of accuracy, integrity, relevance, consistency and overall performance. For other tasks, the output is defined as accurate if it is the same as the reference standard. Search strategy performance was evaluated through accuracy and retrieval efficacy. Screening accuracy was assessed for both abstracts screening and full texts screening. Data extraction accuracy was evaluated across 1,120 data points comprising 3,360 individual fields. Claude-3 demonstrated superior overall performance in PICO design. In search strategy formulation, GPT-4 and Claude-3 achieved comparable accuracy, outperforming Mistral. For abstract screening, GPT-4 achieved the highest accuracy, followed by Mistral and Claude-3. In data extraction, GPT-4 significantly outperformed other models. LLMs demonstrate potential for automating systematic review tasks, with GPT-4 showing superior performance in search strategy formulation, literature screening and data extraction. These capabilities make them promising assistive tools for researchers and warrant further development and validation in this field.