What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction
作者: Lingbo Li, Anuradha Mathrani, Teo Susnjak
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-20
💡 一句话要点
评估大语言模型在Meta分析数据抽取中的自动化水平,并提出实用指南。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Meta分析 数据抽取 大语言模型 提示工程 自动化 医学研究 随机对照试验
📋 核心要点
- Meta分析中从RCT全文自动提取数据仍然面临挑战,现有方法在召回率方面表现不足。
- 论文核心在于探索不同提示策略对LLM数据抽取性能的影响,并提出自动化水平分级指南。
- 实验表明,定制提示策略能显著提升LLM的召回率,为实际应用提供参考。
📝 摘要(中文)
本研究评估了三个大语言模型(Gemini-2.0-flash、Grok-3、GPT-4o-mini)在Meta分析数据抽取中的实际性能,针对高血压、糖尿病和骨科三个医学领域的随机对照试验(RCTs)全文,抽取统计结果、风险偏倚评估和研究级别特征。我们测试了四种不同的提示策略(基本提示、自反思提示、模型集成和定制提示),以确定如何提高抽取质量。所有模型都表现出高精度,但始终存在召回率低的问题,会遗漏关键信息。我们发现定制提示最有效,可将召回率提高高达15%。基于此分析,我们提出了一套三层指南,用于在使用LLM进行数据提取时,根据任务复杂性和风险将数据类型与适当的自动化级别相匹配。我们的研究为在实际Meta分析中自动化数据提取提供了实用建议,通过有针对性的、特定于任务的自动化来平衡LLM效率与专家监督。
🔬 方法详解
问题定义:本研究旨在解决Meta分析中从随机对照试验(RCTs)全文中自动提取数据的难题。现有方法,尤其是依赖人工抽取的方式,效率低下且容易出错。现有的大语言模型在数据抽取任务中虽然展现出潜力,但仍然存在召回率不足的问题,即无法完整地提取所有关键信息,这限制了它们在实际Meta分析中的应用。
核心思路:论文的核心思路是通过探索不同的提示策略来提升大语言模型在数据抽取任务中的性能。作者认为,通过精心设计的提示,可以引导模型更准确、更完整地提取所需信息。此外,论文还提出了一个三层自动化水平指南,旨在根据任务的复杂性和风险,为不同类型的数据选择合适的自动化程度,从而平衡LLM的效率和专家监督。
技术框架:该研究的技术框架主要包括以下几个阶段: 1. 数据准备:收集来自高血压、糖尿病和骨科三个医学领域的随机对照试验(RCTs)全文。 2. 模型选择:选择三个大语言模型(Gemini-2.0-flash、Grok-3、GPT-4o-mini)作为实验对象。 3. 提示策略设计:设计四种不同的提示策略,包括基本提示、自反思提示、模型集成和定制提示。 4. 数据抽取与评估:使用不同的提示策略,让LLM从RCT全文中抽取统计结果、风险偏倚评估和研究级别特征,并评估抽取结果的精度和召回率。 5. 自动化水平指南制定:根据实验结果,制定一个三层自动化水平指南,为不同类型的数据选择合适的自动化程度。
关键创新:该研究的关键创新在于: 1. 定制提示策略的有效性:实验证明,定制提示策略能够显著提升LLM在数据抽取任务中的召回率,优于其他提示策略。 2. 自动化水平指南:提出了一个实用的三层自动化水平指南,为在实际Meta分析中应用LLM进行数据抽取提供了指导。
关键设计:在提示策略方面,定制提示策略是关键。具体设计细节未知,但根据描述,它应该是针对特定任务和数据类型进行优化,以引导模型更准确地提取所需信息。此外,自动化水平指南的具体分层标准和建议也属于关键设计,但论文摘要中未提供详细信息,属于未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,定制提示策略能够显著提升LLM在数据抽取任务中的召回率,最高可提升15%。相比之下,基本提示、自反思提示和模型集成策略的提升效果相对有限。这表明,针对特定任务进行优化的提示策略对于提高LLM的数据抽取性能至关重要。
🎯 应用场景
该研究成果可应用于医学领域的Meta分析,加速数据抽取过程,提高研究效率。通过合理选择自动化水平,可以平衡LLM的效率和专家监督,降低错误风险。未来,该方法有望推广到其他需要大量数据抽取的领域,例如法律、金融等。
📄 摘要(原文)
Automating data extraction from full-text randomised controlled trials (RCTs) for meta-analysis remains a significant challenge. This study evaluates the practical performance of three LLMs (Gemini-2.0-flash, Grok-3, GPT-4o-mini) across tasks involving statistical results, risk-of-bias assessments, and study-level characteristics in three medical domains: hypertension, diabetes, and orthopaedics. We tested four distinct prompting strategies (basic prompting, self-reflective prompting, model ensemble, and customised prompts) to determine how to improve extraction quality. All models demonstrate high precision but consistently suffer from poor recall by omitting key information. We found that customised prompts were the most effective, boosting recall by up to 15\%. Based on this analysis, we propose a three-tiered set of guidelines for using LLMs in data extraction, matching data types to appropriate levels of automation based on task complexity and risk. Our study offers practical advice for automating data extraction in real-world meta-analyses, balancing LLM efficiency with expert oversight through targeted, task-specific automation.