High-performance automated abstract screening with large language model ensembles
作者: Rohan Sanghera, Arun James Thirunavukarasu, Marc El Khoury, Jessica O'Logbon, Yuqing Chen, Archie Watt, Mustafa Mahmood, Hamid Butt, George Nishimura, Andrew Soltan
分类: cs.CL, cs.DL, cs.IR
发布日期: 2024-11-03 (更新: 2024-11-22)
备注: RS and AJT are joint-first authors
💡 一句话要点
利用大语言模型集成实现高性能自动化文献摘要筛选
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动化摘要筛选 系统评价 零样本学习 模型集成
📋 核心要点
- 系统评价中的摘要筛选耗时费力,传统方法依赖人工,效率低且易出错,难以应对海量文献。
- 利用大型语言模型(LLMs)强大的文本理解和分类能力,直接进行零样本二元分类,辅助或替代人工筛选。
- 实验表明,LLMs在灵敏度上超越人类,集成方法在大型试验中表现出更稳定的性能,有望降低人工成本。
📝 摘要(中文)
大型语言模型(LLMs)擅长处理和解释输入文本的任务。摘要筛选是系统评价中一项劳动密集型工作,涉及对文献检索确定的大量研究重复应用纳入和排除标准。本文在Cochrane图书馆完整一期中的系统评价上试验了LLMs(GPT-3.5 Turbo、GPT-4 Turbo、GPT-4o、Llama 3 70B、Gemini 1.5 Pro和Claude Sonnet 3.5),以评估它们在摘要筛选中零样本二元分类的准确性。对800条记录子集的试验确定了最佳提示策略,并证明LLMs在灵敏度(LLM-max = 1.000,human-max = 0.775)、精确度(LLM-max = 0.927,human-max = 0.911)和平衡准确度(LLM-max = 0.904,human-max = 0.865)方面优于人类研究人员。在每个复制的搜索结果(n = 119,691)中试验了表现最佳的LLM-prompt组合,结果显示灵敏度一致(范围0.756-1.000),但精确度降低(范围0.004-0.096)。66个LLM-human和LLM-LLM集成表现出完美的灵敏度,最大精确度为0.458,在更大的试验中观察到的性能下降较少。不同评价之间的性能存在显著差异,突出了部署前进行领域特定验证的重要性。LLMs可以在保持或提高准确性和灵敏度的前提下,降低系统评价的人工成本。系统评价是包括循证医学在内的各学术学科证据综合的基础,LLMs可以提高这种研究模式的效率和质量。
🔬 方法详解
问题定义:论文旨在解决系统评价中人工摘要筛选效率低下、易出错的问题。现有方法依赖人工阅读和判断,耗时费力,且受限于人类主观性,难以保证筛选质量,尤其是在面对大规模文献时。
核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的文本理解和分类能力,直接对文献摘要进行零样本二元分类,判断其是否符合纳入标准。通过LLM集成,进一步提升筛选的准确性和鲁棒性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择合适的LLMs(GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, Claude Sonnet 3.5);2) 设计有效的提示策略(prompting strategies),指导LLMs进行分类;3) 在Cochrane图书馆的系统评价数据集上进行试验,评估LLMs的性能;4) 构建LLM-human和LLM-LLM集成,进一步提升性能。
关键创新:该研究的关键创新在于:1) 探索了LLMs在自动化摘要筛选中的应用潜力,证明了LLMs在灵敏度上超越人类;2) 提出了LLM集成方法,有效提升了筛选的准确性和鲁棒性;3) 强调了领域特定验证的重要性,为LLMs在实际应用中提供了指导。
关键设计:论文的关键设计包括:1) 针对不同的LLMs,设计了不同的提示策略,以优化其性能;2) 采用了零样本学习方法,避免了对大量标注数据的依赖;3) 通过集成多个LLM的预测结果,降低了单个LLM的误差,提升了整体性能。具体参数设置和网络结构等技术细节在论文中未详细描述,属于LLM本身的设计。
📊 实验亮点
实验结果表明,LLMs在灵敏度(LLM-max = 1.000,human-max = 0.775)和平衡准确度(LLM-max = 0.904,human-max = 0.865)方面优于人类研究人员。LLM-human和LLM-LLM集成表现出完美的灵敏度,最大精确度为0.458,在大型试验中性能下降较少。
🎯 应用场景
该研究成果可应用于医学、社会科学等领域的系统评价,加速文献筛选过程,降低人工成本,提高研究效率。未来,可进一步扩展到专利分析、法律文件审查等领域,助力知识发现和决策支持。
📄 摘要(原文)
Large language models (LLMs) excel in tasks requiring processing and interpretation of input text. Abstract screening is a labour-intensive component of systematic review involving repetitive application of inclusion and exclusion criteria on a large volume of studies identified by a literature search. Here, LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, and Claude Sonnet 3.5) were trialled on systematic reviews in a full issue of the Cochrane Library to evaluate their accuracy in zero-shot binary classification for abstract screening. Trials over a subset of 800 records identified optimal prompting strategies and demonstrated superior performance of LLMs to human researchers in terms of sensitivity (LLM-max = 1.000, human-max = 0.775), precision (LLM-max = 0.927, human-max = 0.911), and balanced accuracy (LLM-max = 0.904, human-max = 0.865). The best performing LLM-prompt combinations were trialled across every replicated search result (n = 119,691), and exhibited consistent sensitivity (range 0.756-1.000) but diminished precision (range 0.004-0.096). 66 LLM-human and LLM-LLM ensembles exhibited perfect sensitivity with a maximal precision of 0.458, with less observed performance drop in larger trials. Significant variation in performance was observed between reviews, highlighting the importance of domain-specific validation before deployment. LLMs may reduce the human labour cost of systematic review with maintained or improved accuracy and sensitivity. Systematic review is the foundation of evidence synthesis across academic disciplines, including evidence-based medicine, and LLMs may increase the efficiency and quality of this mode of research.