Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers

📄 arXiv: 2502.00070v2 📥 PDF

作者: Pat Pataranutaporn, Nattavudh Powdthavee, Chayapatr Achiwaranguprok, Pattie Maes

分类: cs.CY, cs.AI, econ.GN

发布日期: 2025-01-31 (更新: 2025-04-03)

备注: 58 pages


💡 一句话要点

利用大规模实验评估LLM在经济学论文评审中的表现与偏差,探索AI辅助同行评审

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 同行评审 经济学研究 偏见分析 AI辅助决策

📋 核心要点

  1. 传统的同行评审过程效率低下,且易受人为偏见影响,阻碍了学术研究的快速发展和公平评估。
  2. 本研究探索利用LLM自动评估经济学论文质量,旨在减少人为偏见,提高评审效率,并促进学术出版的公平性。
  3. 实验结果表明,LLM在区分论文质量方面表现出色,但存在对作者身份信息的偏见,强调了匿名评审的重要性。

📝 摘要(中文)

本研究探讨了大型语言模型(LLM)在学术同行评审过程中增强评审能力的可能性,旨在可靠地评估经济学研究的质量,同时避免引入系统性偏差。我们对四种LLM(GPT-4o、Claude 3.5、Gemma 3和LLaMA 3.3)进行了首次大规模实验评估,实验包含两个互补的部分。首先,我们使用非参数binscatter和线性回归技术分析了来自110个经济学期刊的1220篇匿名论文的超过29000次评估,这些期刊的数据未包含在当前LLM的训练数据中,同时还包括一组AI生成的论文。结果表明,LLM能够仅基于文本内容区分高质量和低质量的研究,产生的质量梯度与已建立的期刊声望指标密切相关。Claude和Gemma在捕捉这些梯度方面表现出色,而GPT在检测AI生成的内容方面表现突出。第二个实验包含8910次评估,旨在评估LLM是否在单盲评审中重现类似人类的偏见。通过系统地改变330篇论文的作者性别、机构隶属关系和学术声望,我们发现GPT、Gemma和LLaMA对来自顶级男性作者和精英机构的论文的评分明显高于匿名提交的相同论文。这些结果强调了在同行评审的编辑筛选中部署LLM时排除作者身份信息的重要性。总的来说,我们的发现为将LLM集成到同行评审中提供了令人信服的证据和实践指导,以提高效率、提高准确性并促进经济学研究出版过程中的公平性。

🔬 方法详解

问题定义:论文旨在解决经济学领域同行评审过程中的效率低下和潜在偏见问题。现有的人工评审耗时且成本高昂,并且评审结果可能受到评审者个人偏见的影响,例如作者的性别、机构声望等,导致评审结果不公平。

核心思路:论文的核心思路是利用大型语言模型(LLM)的文本理解和评估能力,自动评估经济学论文的质量,并识别和减轻潜在的偏见。通过训练LLM识别高质量研究的特征,并控制作者身份信息,可以提高评审效率和公平性。

技术框架:该研究包含两个主要实验: 1. 质量评估实验:使用来自110个经济学期刊的1220篇匿名论文,以及AI生成的论文,让LLM进行评估。通过非参数binscatter和线性回归分析,比较LLM的评估结果与期刊声望指标的关联性。 2. 偏见评估实验:系统性地改变330篇论文的作者性别、机构隶属关系和学术声望,评估LLM在单盲评审中是否会受到这些因素的影响。

关键创新:该研究的关键创新在于: 1. 大规模实验:对超过1000篇经济学论文进行了大规模的LLM评估实验,提供了充分的实验数据。 2. 多模型比较:比较了GPT-4o、Claude 3.5、Gemma 3和LLaMA 3.3等多种LLM在评审任务中的表现。 3. 偏见分析:系统性地分析了LLM在评审过程中可能存在的偏见,并提出了减轻偏见的建议。

关键设计: 1. 匿名化处理:为了避免LLM受到作者身份信息的影响,所有论文都经过了匿名化处理。 2. 期刊声望指标:使用已建立的期刊声望指标作为评估LLM质量评估能力的基准。 3. 单盲评审模拟:通过系统性地改变作者信息,模拟单盲评审场景,评估LLM的偏见。

📊 实验亮点

实验结果表明,LLM能够有效区分高质量和低质量的经济学研究,其评估结果与期刊声望指标高度相关。Claude和Gemma在捕捉质量梯度方面表现优异,GPT在检测AI生成内容方面表现突出。然而,GPT、Gemma和LLaMA在单盲评审中表现出对顶级男性作者和精英机构的偏见,强调了匿名评审的重要性。

🎯 应用场景

该研究成果可应用于学术出版领域,辅助编辑进行论文筛选和初步评估,提高同行评审的效率和公平性。通过集成LLM到评审流程中,可以减少人为偏见,加快论文发表速度,并为研究人员提供更客观的反馈。此外,该研究也为其他领域的AI辅助决策提供了借鉴。

📄 摘要(原文)

This study examines the potential of large language models (LLMs) to augment the academic peer review process by reliably evaluating the quality of economics research without introducing systematic bias. We conduct one of the first large-scale experimental assessments of four LLMs (GPT-4o, Claude 3.5, Gemma 3, and LLaMA 3.3) across two complementary experiments. In the first, we use nonparametric binscatter and linear regression techniques to analyze over 29,000 evaluations of 1,220 anonymized papers drawn from 110 economics journals excluded from the training data of current LLMs, along with a set of AI-generated submissions. The results show that LLMs consistently distinguish between higher- and lower-quality research based solely on textual content, producing quality gradients that closely align with established journal prestige measures. Claude and Gemma perform exceptionally well in capturing these gradients, while GPT excels in detecting AI-generated content. The second experiment comprises 8,910 evaluations designed to assess whether LLMs replicate human like biases in single blind reviews. By systematically varying author gender, institutional affiliation, and academic prominence across 330 papers, we find that GPT, Gemma, and LLaMA assign significantly higher ratings to submissions from top male authors and elite institutions relative to the same papers presented anonymously. These results emphasize the importance of excluding author-identifying information when deploying LLMs in editorial screening. Overall, our findings provide compelling evidence and practical guidance for integrating LLMs into peer review to enhance efficiency, improve accuracy, and promote equity in the publication process of economics research.