Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis

📄 arXiv: 2510.10762v1 📥 PDF

作者: Wenqing Zhang, Trang Nguyen, Elizabeth A. Stuart, Yiqun T. Chen

分类: cs.CL, stat.AP

发布日期: 2025-10-12


💡 一句话要点

利用大型语言模型评估全文方法:以中介分析为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 系统评价 方法学评估 中介分析 自然语言处理

📋 核心要点

  1. 系统评价耗时费力,尤其在提取方法学信息时,自动化需求迫切。
  2. 利用大型语言模型(LLM)进行方法学评估,旨在提高证据综合效率。
  3. 实验表明LLM在简单任务上接近人类水平,但在复杂推理任务上仍有差距。

📝 摘要(中文)

系统评价对于综合科学证据至关重要,但仍然是劳动密集型的,尤其是在提取详细的方法学信息时。大型语言模型(LLM)为自动化方法学评估提供了潜力,有望改变证据综合。本文以因果中介分析为代表的方法学领域,针对180篇全文科学文章,对最先进的LLM与专家人工评审员进行了基准测试。模型性能与人工判断密切相关(准确率相关性0.71;F1相关性0.97),在直接、明确陈述的方法学标准上实现了接近人类的准确率。然而,在复杂的、需要深入推理的评估中,准确率急剧下降,落后于专家评审员高达15%。错误通常源于肤浅的语言线索——例如,模型经常将“纵向”或“敏感性”等关键词误解为严格方法学方法的自动证据,导致系统性的错误分类。较长的文档导致较低的模型准确率,而发表年份没有显示出显著影响。我们的发现为从业者使用LLM从全文中进行方法审查和综合提供了一个重要的模式:当前的LLM擅长识别明确的方法学特征,但对于细致的解释需要人工监督。因此,将自动化信息提取与有针对性的专家审查相结合,为提高不同科学领域证据综合的效率和方法学严谨性提供了一种有前景的方法。

🔬 方法详解

问题定义:论文旨在解决系统评价中方法学信息提取耗时费力的问题。现有方法依赖人工,效率低下且容易出错。特别是在中介分析等复杂方法学领域,需要准确识别和评估研究设计、统计方法和假设验证过程。现有方法难以有效处理全文信息,无法自动化提取关键方法学特征。

核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,自动化地从全文科学文章中提取和评估方法学信息。通过训练LLM识别关键的方法学特征,并将其与专家人工评审员的判断进行比较,评估LLM在方法学评估中的潜力。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集包含中介分析的全文科学文章;2) 人工标注:由专家人工评审员对文章的方法学特征进行标注;3) 模型训练:使用收集到的数据训练LLM,使其能够识别和提取方法学特征;4) 模型评估:将LLM的评估结果与人工标注进行比较,评估模型的性能。

关键创新:该研究的关键创新在于:1) 将LLM应用于方法学评估领域,探索了LLM在自动化证据综合中的潜力;2) 针对中介分析这一复杂方法学领域,对LLM的性能进行了深入评估;3) 揭示了LLM在识别明确方法学特征方面的优势,以及在处理复杂推理任务方面的局限性。

关键设计:研究中使用了最先进的LLM模型(具体模型名称未知)。评估指标包括准确率、F1值和相关性。实验中比较了LLM和专家人工评审员的评估结果。研究还分析了文档长度和发表年份对模型性能的影响。具体参数设置和损失函数等技术细节未知。

📊 实验亮点

实验结果表明,LLM在识别明确的方法学特征方面表现出色,与人工判断的相关性很高(准确率相关性0.71;F1相关性0.97)。然而,在复杂的推理任务中,LLM的准确率明显下降,落后于专家评审员高达15%。文档长度对模型性能有负面影响,而发表年份没有显著影响。

🎯 应用场景

该研究成果可应用于自动化系统评价、医学研究、社会科学研究等领域,提高证据综合的效率和质量。通过自动化提取方法学信息,可以减少人工干预,降低成本,并加速科学发现。未来,该技术有望应用于更广泛的科学领域,促进跨学科研究和知识共享。

📄 摘要(原文)

Systematic reviews are crucial for synthesizing scientific evidence but remain labor-intensive, especially when extracting detailed methodological information. Large language models (LLMs) offer potential for automating methodological assessments, promising to transform evidence synthesis. Here, using causal mediation analysis as a representative methodological domain, we benchmarked state-of-the-art LLMs against expert human reviewers across 180 full-text scientific articles. Model performance closely correlated with human judgments (accuracy correlation 0.71; F1 correlation 0.97), achieving near-human accuracy on straightforward, explicitly stated methodological criteria. However, accuracy sharply declined on complex, inference-intensive assessments, lagging expert reviewers by up to 15%. Errors commonly resulted from superficial linguistic cues -- for instance, models frequently misinterpreted keywords like "longitudinal" or "sensitivity" as automatic evidence of rigorous methodological approache, leading to systematic misclassifications. Longer documents yielded lower model accuracy, whereas publication year showed no significant effect. Our findings highlight an important pattern for practitioners using LLMs for methods review and synthesis from full texts: current LLMs excel at identifying explicit methodological features but require human oversight for nuanced interpretations. Integrating automated information extraction with targeted expert review thus provides a promising approach to enhance efficiency and methodological rigor in evidence synthesis across diverse scientific fields.