Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation
作者: Tianmai M. Zhang, Neil F. Abernethy
分类: cs.CL
发布日期: 2025-05-28 (更新: 2025-07-07)
备注: Add results from new experiments; update discussion and GitHub link
💡 一句话要点
利用推理LLM评估科学论文质量:基线方法与自动评估框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 同行评审 科学论文 自动评估 推理能力
📋 核心要点
- 同行评审面临危机,利用LLM生成完整评审可能加剧不负责任使用。
- 提出将LLM作为稿件质量检查器,识别论文中的关键错误和不合理之处。
- 构建自动评估框架,使用推理LLM作为评判者,降低人工评估成本。
📝 摘要(中文)
大型语言模型(LLM)的最新进展激发了人们利用它们来辅助科学出版的同行评审过程的兴趣。然而,让AI模型像人类评审员一样生成完整的评审意见,可能会加剧LLM生成评审意见的不负责任使用。作为一种替代方案,我们建议采用LLM作为稿件质量检查器。我们介绍了几种基线方法和一个可扩展的自动评估框架,该框架使用顶级的推理LLM作为评判者,以解决招募领域专家进行人工评估的难题。利用从arXiv撤回的论文,我们使用来自多个供应商的几个领先的推理LLM验证了我们提出的方法,并评估了它们在识别科学论文中的关键错误和不合理问题方面的性能和API成本。结果表明,o3模型以适中的成本表现出最佳的问题识别性能。本文提供了对基于文档的科学理解/推理的见解,并为未来的应用奠定了基础。我们的数据集、代码和模型输出已公开。
🔬 方法详解
问题定义:论文旨在解决科学论文同行评审中人工评审成本高昂、领域专家难以招募的问题。现有方法直接让LLM生成完整评审意见,存在LLM被滥用、生成不负责任评审的风险。因此,需要一种更安全、更高效的方式来利用LLM辅助论文质量评估。
核心思路:论文的核心思路是将LLM定位为“稿件质量检查器”,而非“完整评审生成器”。通过设计特定的任务和评估框架,让LLM专注于识别论文中的关键错误和不合理之处,从而降低LLM被滥用的风险,并提高评审效率。同时,利用LLM自身的推理能力,构建自动评估框架,减少对人工评估的依赖。
技术框架:整体框架包含以下几个主要步骤:1) 选择或构建包含存在问题的科学论文的数据集(本研究使用了从arXiv撤回的论文);2) 设计基线方法,利用不同的推理LLM对论文进行问题识别;3) 构建自动评估框架,使用顶级的推理LLM作为评判者,评估基线方法识别问题的准确性;4) 分析不同LLM的性能和API成本,选择性价比最高的模型。
关键创新:论文的关键创新在于:1) 提出了将LLM作为“稿件质量检查器”的新思路,避免了直接生成完整评审意见的潜在风险;2) 构建了可扩展的自动评估框架,利用推理LLM作为评判者,降低了人工评估的成本;3) 系统地评估了多个领先的推理LLM在识别科学论文问题方面的性能和API成本,为后续研究提供了参考。
关键设计:论文的关键设计包括:1) 使用从arXiv撤回的论文作为数据集,保证了数据集中包含存在问题的论文;2) 设计了多种基线方法,例如直接使用LLM进行问题识别、使用LLM进行问题分类等;3) 使用顶级的推理LLM(例如o3)作为评判者,保证了评估的准确性;4) 综合考虑了LLM的性能和API成本,为实际应用提供了指导。
📊 实验亮点
实验结果表明,o3模型在识别科学论文中的关键错误和不合理问题方面表现最佳,且API成本适中。该模型在问题识别准确率方面显著优于其他模型,证明了利用推理LLM进行论文质量评估的可行性和有效性。此外,自动评估框架的构建也为后续研究提供了便利。
🎯 应用场景
该研究成果可应用于科学论文的预审、质量控制、自动评审辅助等领域。通过利用LLM自动识别论文中的潜在问题,可以提高评审效率,降低人工成本,并有助于提升科学研究的整体质量。未来,该方法还可以扩展到其他类型的文档质量评估,例如法律文件、技术报告等。
📄 摘要(原文)
Recent advancements in large language models have sparked interest in utilizing them to aid the peer review process of scientific publication amid the peer review crisis. However, having AI models generate full reviews in the same way as human reviewers risks exacerbating the irresponsible use of LLM-generated reviews. As an alternative, we propose adopting LLMs as manuscript quality checkers. We introduce several baseline approaches and an extendable automatic evaluation framework using top reasoning LLMs as judges to tackle the difficulty of recruiting domain experts for manual evaluation. Utilizing papers withdrawn from arXiv, we validated our proposed methods with several leading reasoning LLMs from multiple vendors and assessed their performance and API costs for identifying critical errors and unsoundness problems in scientific papers. o3 exhibited the best problem identification performance among all models at a modest cost. This paper provides insights into document-based scientific understanding/reasoning and lays a foundation for future applications. Our dataset, code, and model outputs are publicly available.