Enabling Inclusive Systematic Reviews: Incorporating Preprint Articles with Large Language Model-Driven Evaluations

📄 arXiv: 2503.13857v4 📥 PDF

作者: Rui Yang, Jiayi Tong, Haoyuan Wang, Hui Huang, Ziyang Hu, Peiyu Li, Nan Liu, Christopher J. Lindsell, Michael J. Pencina, Yong Chen, Chuan Hong

分类: cs.CL

发布日期: 2025-03-18 (更新: 2025-07-11)

备注: 30 pages, 6 figures


💡 一句话要点

提出AutoConfidence框架,利用LLM评估预印本质量,助力高效的系统性综述。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 系统性综述 预印本评估 自然语言处理 大型语言模型 机器学习 自动化数据提取 语义嵌入

📋 核心要点

  1. 系统性综述面临预印本质量不一的挑战,人工评估耗时且主观。
  2. AutoConfidence框架利用NLP、语义嵌入和LLM自动评估预印本发表可能性。
  3. 实验表明,该框架显著提升了预印本发表预测的准确性,降低了人工成本。

📝 摘要(中文)

背景:比较效果研究中的系统性综述需要及时地综合证据。预印本加速了知识传播,但质量参差不齐,给系统性综述带来了挑战。方法:我们提出了AutoConfidence(自动化置信度评估),这是一个用于预测预印本发表情况的先进框架,它减少了对人工管理的依赖,并扩展了预测因子的范围,包括三个关键进展:(1) 使用自然语言处理技术进行自动化数据提取,(2) 标题和摘要的语义嵌入,以及 (3) 大语言模型(LLM)驱动的评估分数。此外,我们采用了两种预测模型:用于二元结果的随机森林分类器和预测二元结果和随时间推移的发表风险的生存治愈模型。结果:随机森林分类器在使用LLM驱动的分数时达到了0.692的AUROC,在使用语义嵌入时提高到0.733,在使用文章使用指标时提高到0.747。生存治愈模型在使用LLM驱动的分数时达到了0.716的AUROC,在使用语义嵌入时提高到0.731。对于发表风险预测,它达到了0.658的一致性指数,在使用语义嵌入时增加到0.667。结论:我们的研究通过自动化数据提取和多特征集成,推进了预印本发表预测的框架。通过将语义嵌入与LLM驱动的评估相结合,AutoConfidence提高了预测性能,同时减少了人工标注负担。该框架有潜力促进系统性综述评估阶段中预印本文章的纳入,支持研究人员更有效地利用预印本资源。

🔬 方法详解

问题定义:系统性综述需要快速整合最新的研究成果,而预印本作为一种快速发布研究结果的方式,其质量参差不齐,人工筛选和评估预印本的发表可能性耗时耗力,且容易受到主观因素的影响。现有方法难以有效利用预印本资源,影响了系统性综述的时效性和全面性。

核心思路:AutoConfidence框架的核心思路是利用自然语言处理技术和机器学习模型,自动化地评估预印本的质量和发表可能性。通过提取预印本的文本特征、计算语义嵌入以及利用大型语言模型进行评估,该框架能够更客观、高效地预测预印本的发表情况,从而辅助研究人员进行系统性综述。

技术框架:AutoConfidence框架主要包含以下几个模块:1) 自动化数据提取:利用NLP技术从预印本中提取标题、摘要等文本信息。2) 特征工程:包括计算标题和摘要的语义嵌入,以及利用LLM生成评估分数。3) 模型训练:使用随机森林分类器和生存治愈模型进行预印本发表预测和发表风险预测。4) 结果评估:使用AUROC和一致性指数等指标评估模型的性能。

关键创新:该论文的关键创新在于:1) 整合了多种特征,包括文本特征、语义嵌入和LLM驱动的评估分数,从而更全面地评估预印本的质量。2) 利用大型语言模型进行评估,能够捕捉到预印本的潜在价值和影响力。3) 提出了生存治愈模型,能够预测预印本的发表风险随时间的变化。

关键设计:1) 使用预训练的语言模型(具体模型未知)计算标题和摘要的语义嵌入。2) 使用LLM(具体模型未知)生成评估分数,评估标准未知。3) 随机森林分类器和生存治愈模型的具体参数设置未知。4) 损失函数的设计细节未知。

📊 实验亮点

AutoConfidence框架在预印本发表预测任务中取得了显著成果。随机森林分类器在使用LLM驱动的分数时AUROC达到0.692,加入语义嵌入后提升至0.733,进一步加入文章使用指标后达到0.747。生存治愈模型在使用LLM驱动的分数时AUROC达到0.716,加入语义嵌入后提升至0.731。发表风险预测的一致性指数在使用语义嵌入后从0.658提升至0.667。

🎯 应用场景

AutoConfidence框架可应用于医学、社会科学等领域的系统性综述,帮助研究人员快速筛选和评估预印本,提高综述效率和质量。该框架还可用于预印本平台的质量控制,辅助编辑进行稿件筛选和推荐,促进学术交流。

📄 摘要(原文)

Background. Systematic reviews in comparative effectiveness research require timely evidence synthesis. Preprints accelerate knowledge dissemination but vary in quality, posing challenges for systematic reviews. Methods. We propose AutoConfidence (automated confidence assessment), an advanced framework for predicting preprint publication, which reduces reliance on manual curation and expands the range of predictors, including three key advancements: (1) automated data extraction using natural language processing techniques, (2) semantic embeddings of titles and abstracts, and (3) large language model (LLM)-driven evaluation scores. Additionally, we employed two prediction models: a random forest classifier for binary outcome and a survival cure model that predicts both binary outcome and publication risk over time. Results. The random forest classifier achieved AUROC 0.692 with LLM-driven scores, improving to 0.733 with semantic embeddings and 0.747 with article usage metrics. The survival cure model reached AUROC 0.716 with LLM-driven scores, improving to 0.731 with semantic embeddings. For publication risk prediction, it achieved a concordance index of 0.658, increasing to 0.667 with semantic embeddings. Conclusion. Our study advances the framework for preprint publication prediction through automated data extraction and multiple feature integration. By combining semantic embeddings with LLM-driven evaluations, AutoConfidence enhances predictive performance while reducing manual annotation burden. The framework has the potential to facilitate incorporation of preprint articles during the appraisal phase of systematic reviews, supporting researchers in more effective utilization of preprint resources.