Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

📄 arXiv: 2604.19578v1 📥 PDF

作者: Wenqing Wu, Chengzhi Zhang, Yi Zhao, Tong Bao

分类: cs.CL, cs.AI, cs.DL, cs.IR

发布日期: 2026-04-21

备注: Scientometrics


💡 一句话要点

研究表明大型语言模型影响同行评审意见,导致评审关注点从深度评估转向表面清晰度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 同行评审 学术交流 自然语言处理 文本分析

📋 核心要点

  1. 现有研究缺乏对LLM如何细粒度地影响同行评审的核心评估功能(如原创性、可重复性)的系统性分析。
  2. 通过分析评审报告的语言特征、评估重点和推荐信号,研究LLM对同行评审的影响,并识别潜在的LLM辅助评审。
  3. 研究发现LLM影响下,评审报告更长更流畅,关注表面清晰度,但对原创性等深层评估维度关注下降。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,学术界面临着前所未有的变革,尤其是在学术交流领域。同行评审的主要功能是提高学术手稿的质量,例如清晰度、原创性和其他评估方面。尽管之前的研究表明LLMs已经开始影响同行评审,但它们是否正在改变其核心评估功能仍不清楚。此外,LLMs在多大程度上影响同行评审报告的语言形式、评估重点和推荐相关信号尚未得到系统地检验。本研究考察了LLMs出现后学术文章同行评审报告的变化,强调了细粒度层面的差异。具体来说,我们研究了评审意见中的语言特征,如单词和句子的长度和复杂性,同时自动标注了单个评审句子的评估方面。我们还使用了一种先前建立的最大似然估计方法来识别可能由LLMs修改或生成的评审报告。最后,我们评估了LLM辅助评审报告中提到的评估方面对论文决策推荐信息量的影响。结果表明,在LLMs出现后,同行评审文本变得更长、更流畅,更加强调总结和表面清晰度,以及更标准化的语言模式,特别是对于置信度较低的评审者。与此同时,对更深层次的评估维度(如原创性、可重复性和细致的批判性推理)的关注有所下降。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)对学术同行评审的影响,特别是LLMs如何改变评审报告的语言形式、评估重点和推荐相关信号。现有方法缺乏对这些影响的细粒度分析,无法准确评估LLMs对同行评审质量的潜在威胁。现有研究未能充分区分LLM辅助评审和人工评审之间的差异,导致对评审质量的评估不够准确。

核心思路:论文的核心思路是通过对比LLMs出现前后评审报告的差异,量化LLMs对评审报告的影响。具体来说,论文分析了评审报告的语言特征(如长度、复杂性)、评估重点(如清晰度、原创性)和推荐信号,并使用最大似然估计方法识别潜在的LLM辅助评审。通过分析这些差异,论文旨在揭示LLMs如何改变同行评审的本质。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:收集LLMs出现前后的学术文章同行评审报告。2) 特征提取:提取评审报告的语言特征(如长度、复杂性)、评估重点(使用自动标注方法)和推荐信号。3) LLM辅助评审识别:使用最大似然估计方法识别潜在的LLM辅助评审。4) 影响分析:分析LLMs对评审报告的语言特征、评估重点和推荐信号的影响。5) 推荐信息量评估:评估LLM辅助评审报告中提到的评估方面对论文决策推荐信息量的影响。

关键创新:论文的关键创新在于:1) 细粒度分析:对LLMs的影响进行细粒度分析,关注语言特征、评估重点和推荐信号等多个方面。2) LLM辅助评审识别:使用最大似然估计方法识别潜在的LLM辅助评审,提高了分析的准确性。3) 影响评估:评估LLMs对评审报告质量的影响,特别是对深层评估维度(如原创性、可重复性)的影响。

关键设计:论文的关键设计包括:1) 语言特征提取:使用自然语言处理技术提取评审报告的长度、复杂性等语言特征。2) 评估重点自动标注:使用机器学习方法自动标注评审报告中提到的评估方面(如清晰度、原创性)。3) 最大似然估计:使用最大似然估计方法识别潜在的LLM辅助评审,具体参数设置未知。4) 统计分析:使用统计方法分析LLMs对评审报告的影响,例如t检验、方差分析等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,LLMs出现后,评审报告的长度和流畅度增加,但对原创性、可重复性等深层评估维度的关注度下降。同时,置信度较低的评审者更倾向于使用LLM,导致评审报告的语言模式更加标准化。这些发现揭示了LLMs对同行评审质量的潜在威胁。

🎯 应用场景

该研究结果可用于开发检测LLM辅助评审的工具,帮助学术期刊编辑识别并筛选低质量的评审报告。同时,研究结果也提醒学术界关注LLM对同行评审的潜在负面影响,并采取措施维护同行评审的质量和公正性。该研究对维护学术诚信具有重要意义。

📄 摘要(原文)

With the rapid advancement of Large Language Models (LLMs), the academic community has faced unprecedented disruptions, particularly in the realm of academic communication. The primary function of peer review is improving the quality of academic manuscripts, such as clarity, originality and other evaluation aspects. Although prior studies suggest that LLMs are beginning to influence peer review, it remains unclear whether they are altering its core evaluative functions. Moreover, the extent to which LLMs affect the linguistic form, evaluative focus, and recommendation-related signals of peer-review reports has yet to be systematically examined. In this study, we examine the changes in peer review reports for academic articles following the emergence of LLMs, emphasizing variations at fine-grained level. Specifically, we investigate linguistic features such as the length and complexity of words and sentences in review comments, while also automatically annotating the evaluation aspects of individual review sentences. We also use a maximum likelihood estimation method, previously established, to identify review reports that potentially have modified or generated by LLMs. Finally, we assess the impact of evaluation aspects mentioned in LLM-assisted review reports on the informativeness of recommendation for paper decision-making. The results indicate that following the emergence of LLMs, peer review texts have become longer and more fluent, with increased emphasis on summaries and surface-level clarity, as well as more standardized linguistic patterns, particularly reviewers with lower confidence score. At the same time, attention to deeper evaluative dimensions, such as originality, replicability, and nuanced critical reasoning, has declined.