PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing

📄 arXiv: 2605.29815v1 📥 PDF

作者: Krzysztof Żurawicki, Julia Farganus, Arkadiusz Gaweł, Mateusz Bystroński, Tomasz Jan Kajdanowicz

分类: cs.AI, cs.CL

发布日期: 2026-05-28


💡 一句话要点

提出PRAIB基准,评估LLM辅助评审行为,揭示其与人类评审的差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 同行评审 大型语言模型 AI辅助评审 基准测试 行为分析

📋 核心要点

  1. 现有方法难以评估LLM在同行评审中的行为模式,缺乏有效衡量LLM评审质量的基准。
  2. 提出PRAIB框架,通过定义评审特异性、风格和参与行为等指标,全面评估LLM评审质量。
  3. 实验表明LLM评审与人类评审存在显著差异,如评分偏差、过度自信和忽略细微弱点。

📝 摘要(中文)

为了应对日益增长的论文投稿量,研究者开始探索使用大型语言模型(LLMs)来支持和增强同行评审过程,尤其是在提高速度和可扩展性方面。然而,LLMs是否以与人类评审员相同的方式处理科学稿件,或者它们仅仅是生成看起来像评审的文本,仍然是未知的。为了解决这个问题,我们引入了同行评审AI基准(PRAIB),这是一个新颖的框架,包含全面定义的指标,用于衡量评审的特异性、风格和参与行为。为了补充PRAIB框架,我们进行了一项大规模的实证研究,利用包含11,000条由五个专有和开源模型为1,000篇ICLR和NeurIPS论文生成的评审的数据集。跨越2021-2025年,这些机器生成的评审与原始的人类反馈进行比较,通过不同的提示策略来识别系统的行为差异。我们的分析表明,生成的评审与人类评审员提供的反馈存在显著差异:LLM的评分方差较小,存在积极偏差和过度自信,并且它们的交叉引用模式依赖于模型且与人类规范不同。此外,通过PRAIB评估,我们观察到LLMs倾向于生成更长、更复杂的评审,但经常忽略人类评审员指出的细微弱点。通过描述LLMs评审行为在何处以及如何偏离人类规范,PRAIB为社区提供了一种诊断工具,用于识别LLMs目前可以可靠地支持评审过程的哪些方面,以及在部署之前需要进一步开发的哪些方面。

🔬 方法详解

问题定义:现有同行评审流程面临论文数量激增的挑战,利用LLM辅助评审成为一种趋势。然而,现有方法缺乏对LLM评审行为的深入评估,无法判断LLM是否能像人类评审员一样有效参与评审,以及LLM评审与人类评审之间存在哪些差异。现有方法难以量化LLM评审的质量和可靠性。

核心思路:论文的核心思路是构建一个全面的评估框架,即PRAIB,用于量化LLM在同行评审中的行为。通过定义一系列指标,如评审特异性、风格和参与行为,PRAIB能够系统地分析LLM评审与人类评审之间的差异,从而揭示LLM在评审过程中的优势和不足。这种设计旨在为社区提供一个诊断工具,以指导LLM在评审过程中的应用。

技术框架:PRAIB框架包含以下主要组成部分:1) 数据集:包含大量由LLM和人类生成的同行评审数据。2) 指标体系:定义了一系列用于衡量评审质量的指标,包括评审特异性(例如,是否关注论文细节)、评审风格(例如,评审的长度和复杂性)和参与行为(例如,是否交叉引用论文)。3) 评估流程:使用定义的指标对LLM生成的评审和人类评审进行评估和比较,从而识别两者之间的差异。该框架使用11,000条由五个专有和开源模型为1,000篇ICLR和NeurIPS论文生成的评审作为数据集。

关键创新:PRAIB的关键创新在于其全面且可量化的评估框架,该框架能够深入分析LLM在同行评审中的行为模式。与现有方法相比,PRAIB不仅关注LLM评审的表面质量(例如,流畅性和语法),更关注其深层质量(例如,特异性和参与度)。此外,PRAIB还能够识别LLM评审与人类评审之间的系统性差异,从而为LLM在评审过程中的应用提供更具针对性的指导。

关键设计:PRAIB框架的关键设计包括:1) 精心选择的指标:指标的选择旨在全面覆盖评审质量的各个方面,包括特异性、风格和参与行为。2) 大规模数据集:数据集的规模保证了评估结果的可靠性和泛化能力。3) 多样化的LLM模型:使用不同的LLM模型进行评估,可以了解不同模型在评审行为上的差异。4) 多种提示策略:通过使用不同的提示策略,可以研究提示对LLM评审质量的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM生成的评审与人类评审存在显著差异。LLM评分方差较小,存在积极偏差和过度自信,且交叉引用模式与人类不同。LLM倾向于生成更长、更复杂的评审,但经常忽略人类评审员指出的细微弱点。PRAIB框架能够有效识别这些差异,为LLM辅助评审的改进提供依据。

🎯 应用场景

该研究成果可应用于改进LLM辅助评审系统,提高评审效率和质量。PRAIB框架可作为诊断工具,帮助研究人员识别LLM在评审过程中的优势和不足,并指导LLM的进一步开发和应用。此外,该研究还有助于理解LLM在科学写作和评估方面的能力,为相关领域的研究提供参考。

📄 摘要(原文)

The growing number of submitted papers has motivated the exploration of Large Language Models (LLMs) as a means to support and augment the peer review process, particularly in terms of improving its speed and scalability. Yet, it remains unknown whether LLMs engage with scientific manuscripts in the same manner as human reviewers, or whether they merely produce review-looking text. To address this, we introduce the Peer Review AI Benchmark (PRAIB), a novel framework comprising thoroughly defined metrics that measure review specificity, style, and behavior of engagement. To complement the PRAIB framework, we conduct a large-scale empirical study leveraging a dataset of 11,000 reviews generated by five proprietary and open-source models for 1,000 ICLR and NeurIPS papers. Spanning the 2021--2025 period, these machine-generated reviews are compared against original human feedback across diverse prompting strategies to identify systematic behavioral divergences. Our analysis reveals that the generated reviews diverge significantly from feedback provided by human reviewers: LLM ratings are less variable, positively biased, and overconfident, and their cross-reference patterns are model-dependent and distinct from human norms. Furthermore, when evaluated through PRAIB, we observe that LLMs tend to generate longer, more complex reviews, yet frequently overlook the atomic weaknesses noted by human reviewers. By characterizing where and how LLMs reviewing behavior departs from human norms, PRAIB provides the community with a diagnostic tool for identifying which aspects of the review process LLMs can reliably support today and which require further development before deployment.