Expediting data extraction using a large language model (LLM) and scoping review protocol: a methodological study within a complex scoping review

📄 arXiv: 2507.06623v1 📥 PDF

作者: James Stewart-Evans, Emma Wilson, Tessa Langley, Andrew Prayle, Angela Hands, Karen Exley, Jo Leonardi-Bee

分类: cs.CL, cs.AI

发布日期: 2025-07-09

备注: 44 pages, 4 figures


💡 一句话要点

利用大型语言模型和范围界定审查协议加速数据提取

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据提取 系统评价 审查协议 自动化

📋 核心要点

  1. 系统评价的数据提取耗时费力,如何高效提取数据是研究者面临的挑战。
  2. 本研究探索使用大型语言模型(LLM)和审查协议来自动化数据提取过程。
  3. 实验表明,LLM在提取简单数据时准确率高,但在提取复杂数据时表现欠佳,需要进一步优化。

📝 摘要(中文)

系统评价的数据提取阶段耗费大量资源,研究人员可能寻求利用在线大型语言模型(LLM)和审查协议来加速数据提取。本研究使用Claude 3.5 Sonnet,尝试了两种使用审查协议提示从案例研究范围界定审查中包含的10个证据来源提取数据的方法。还使用基于协议的方法来审查提取的数据。有限的性能评估发现,在提取简单、定义明确的引文细节时,两种提取方法的准确率很高(83.3%和100%);但在提取更复杂、主观的数据项时,准确率较低(9.6%和15.8%)。考虑到所有数据项,两种方法的精确率均>90%,但召回率较低(<25%),F1得分较低(<40%)。复杂范围界定审查的背景、开放式响应类型和方法学方法可能由于遗漏和错误归因的数据而影响了性能。LLM反馈认为基线提取是准确的,并提出了细微的修改:15个引文细节中的4个(26.7%)和38个关键发现数据项中的8个(21.1%)被认为可能增加价值。然而,当使用包含故意错误的数据集重复该过程时,仅检测到39个错误中的2个(5%)。用于提高效率的基于审查协议的方法需要在各种LLM和审查环境中进行更稳健的性能评估,并与传统的提示工程方法进行比较。我们建议研究人员在使用LLM进行数据提取或审查提取的数据时,评估并报告LLM的性能。LLM反馈有助于协议调整,并可能有助于未来的审查协议起草。

🔬 方法详解

问题定义:系统评价中的数据提取阶段非常耗时,人工提取效率低且容易出错。现有的数据提取方法难以处理复杂、主观的数据项,并且缺乏自动化工具的支持。

核心思路:利用大型语言模型(LLM)的自然语言处理能力,结合预定义的审查协议,自动化地从文献中提取所需数据。通过审查协议指导LLM,使其能够更准确地识别和提取相关信息。

技术框架:该研究采用Claude 3.5 Sonnet LLM,并设计了两种基于审查协议的数据提取方法。首先,使用审查协议提示LLM从10个证据来源中提取数据。然后,使用基于协议的方法审查提取的数据。最后,评估LLM的性能,并根据反馈调整审查协议。

关键创新:该研究的关键创新在于将审查协议与LLM相结合,用于自动化数据提取。这种方法旨在提高数据提取的效率和准确性,并减少人工干预。

关键设计:研究中使用了两种基于审查协议的提示方法,具体细节未知。性能评估指标包括精确率、召回率和F1得分。此外,还使用了包含故意错误的数据集来评估LLM的错误检测能力。具体参数设置和网络结构等技术细节未知。

📊 实验亮点

实验结果表明,LLM在提取简单引文信息时准确率较高(83.3%和100%),但在提取复杂数据时准确率较低(9.6%和15.8%)。两种方法的精确率均高于90%,但召回率低于25%,F1得分低于40%。LLM在检测故意错误方面的能力有限,仅检测到5%的错误。

🎯 应用场景

该研究成果可应用于医学、社会科学等领域的大规模系统评价和文献综述中,帮助研究人员更高效地提取和分析数据,加速科研进程。通过不断优化LLM和审查协议,有望实现更智能、更准确的数据提取,降低人工成本。

📄 摘要(原文)

The data extraction stages of reviews are resource-intensive, and researchers may seek to expediate data extraction using online (large language models) LLMs and review protocols. Claude 3.5 Sonnet was used to trial two approaches that used a review protocol to prompt data extraction from 10 evidence sources included in a case study scoping review. A protocol-based approach was also used to review extracted data. Limited performance evaluation was undertaken which found high accuracy for the two extraction approaches (83.3% and 100%) when extracting simple, well-defined citation details; accuracy was lower (9.6% and 15.8%) when extracting more complex, subjective data items. Considering all data items, both approaches had precision >90% but low recall (<25%) and F1 scores (<40%). The context of a complex scoping review, open response types and methodological approach likely impacted performance due to missed and misattributed data. LLM feedback considered the baseline extraction accurate and suggested minor amendments: four of 15 (26.7%) to citation details and 8 of 38 (21.1%) to key findings data items were considered to potentially add value. However, when repeating the process with a dataset featuring deliberate errors, only 2 of 39 (5%) errors were detected. Review-protocol-based methods used for expediency require more robust performance evaluation across a range of LLMs and review contexts with comparison to conventional prompt engineering approaches. We recommend researchers evaluate and report LLM performance if using them similarly to conduct data extraction or review extracted data. LLM feedback contributed to protocol adaptation and may assist future review protocol drafting.