Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms
作者: Mike Thelwall, Abdullah Yaghi
分类: cs.DL, cs.CL
发布日期: 2024-11-14
💡 一句话要点
评估ChatGPT在多个平台预测学术同行评审结果的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 同行评审预测 ChatGPT 学术评估 自然语言处理
📋 核心要点
- 现有研究对LLM预测同行评审结果的能力进行了初步探索,但缺乏跨平台和更可靠的评估方法。
- 本文通过平均多个ChatGPT预测结果,并结合不同平台的数据,评估其预测同行评审结果的能力。
- 实验结果表明,ChatGPT在不同平台上的预测能力差异显著,且最佳输入策略也因平台而异。
📝 摘要(中文)
先前研究表明大型语言模型(LLM)在一定程度上可以预测同行评审结果。本文在此基础上,引入了两个新的应用场景,并采用更稳健的方法——对多个ChatGPT的预测结果进行平均。研究发现,基于评审指南,仅使用提交的标题和摘要,对30个ChatGPT预测结果进行平均后,无法预测F1000Research的同行评审结果(Spearman's rho=0.00)。然而,对于SciPost Physics的质量维度,产生了较弱的正相关(有效性rho=0.25,原创性rho=0.25,重要性rho=0.20,清晰度rho=0.08),对于国际学习表征会议(ICLR)的论文,产生了中等程度的正相关(rho=0.38)。包含文章全文显著提高了ICLR的相关性(rho=0.46),略微提高了F1000Research的相关性(rho=0.09),而对SciPost LaTeX文件的四个质量维度相关性产生了不同的影响。使用思维链系统提示略微提高了F1000Research的相关性(rho=0.10),略微降低了ICLR的相关性(rho=0.37),并进一步降低了SciPost Physics的相关性(有效性rho=0.16,原创性rho=0.18,重要性rho=0.18,清晰度rho=0.05)。总体而言,结果表明,在某些情况下,ChatGPT可以产生较弱的预发布质量评估。然而,这些评估的有效性以及采用它们的最佳策略在不同的平台、期刊和会议之间差异很大。此外,ChatGPT最合适的输入似乎因平台而异。
🔬 方法详解
问题定义:论文旨在评估ChatGPT预测学术同行评审结果的能力,现有方法缺乏对不同平台和期刊的泛化能力评估,且预测结果的稳定性有待提高。现有方法通常依赖单一的ChatGPT预测,可能受到随机性的影响。
核心思路:论文的核心思路是通过对多个ChatGPT预测结果进行平均,以提高预测的稳定性和准确性。同时,在不同学术平台(F1000Research, SciPost Physics, ICLR)上进行评估,考察ChatGPT的泛化能力。这种设计旨在减少单一预测的偏差,并揭示不同平台对ChatGPT预测性能的影响。
技术框架:整体流程包括以下步骤:1) 收集不同平台的论文数据(标题、摘要、全文);2) 使用ChatGPT生成多个预测结果(基于评审指南);3) 对多个预测结果进行平均;4) 计算预测结果与实际同行评审结果之间的相关性(Spearman's rho)。研究中还探索了使用思维链(Chain-of-Thought)提示对预测结果的影响。
关键创新:论文的关键创新在于:1) 采用平均多个ChatGPT预测结果的方法,提高了预测的稳定性;2) 在多个学术平台上进行评估,考察了ChatGPT的泛化能力;3) 探索了不同输入(标题、摘要、全文)和提示策略(思维链)对预测结果的影响。
关键设计:研究中使用了ChatGPT模型,并根据不同平台的评审指南设计了提示语。预测结果通过Spearman's rho相关系数与实际评审结果进行比较。采用了30次ChatGPT预测的平均值来提高预测的稳定性。思维链提示的具体内容未知,但旨在引导ChatGPT进行更深入的推理。
📊 实验亮点
研究发现,ChatGPT在不同平台上的预测能力差异显著。对于ICLR,使用全文信息可以显著提高预测准确率(rho=0.38提升至rho=0.46)。而对于F1000Research,即使使用全文信息,预测效果仍然不佳(rho=0.00提升至rho=0.09)。思维链提示对不同平台的影响也不同,对F1000Research略有提升,对ICLR和SciPost Physics则有所降低。这些结果表明,ChatGPT在学术评审中的应用需要针对不同平台进行优化。
🎯 应用场景
该研究成果可应用于辅助学术期刊和会议的论文评审流程,例如,利用ChatGPT进行初步的质量评估,帮助编辑快速筛选论文。此外,研究结果有助于优化LLM在学术领域的应用策略,例如,选择合适的输入和提示语,提高预测的准确性。该研究也为未来开发更智能的评审辅助工具奠定了基础。
📄 摘要(原文)
While previous studies have demonstrated that Large Language Models (LLMs) can predict peer review outcomes to some extent, this paper builds on that by introducing two new contexts and employing a more robust method - averaging multiple ChatGPT scores. The findings that averaging 30 ChatGPT predictions, based on reviewer guidelines and using only the submitted titles and abstracts, failed to predict peer review outcomes for F1000Research (Spearman's rho=0.00). However, it produced mostly weak positive correlations with the quality dimensions of SciPost Physics (rho=0.25 for validity, rho=0.25 for originality, rho=0.20 for significance, and rho = 0.08 for clarity) and a moderate positive correlation for papers from the International Conference on Learning Representations (ICLR) (rho=0.38). Including the full text of articles significantly increased the correlation for ICLR (rho=0.46) and slightly improved it for F1000Research (rho=0.09), while it had variable effects on the four quality dimension correlations for SciPost LaTeX files. The use of chain-of-thought system prompts slightly increased the correlation for F1000Research (rho=0.10), marginally reduced it for ICLR (rho=0.37), and further decreased it for SciPost Physics (rho=0.16 for validity, rho=0.18 for originality, rho=0.18 for significance, and rho=0.05 for clarity). Overall, the results suggest that in some contexts, ChatGPT can produce weak pre-publication quality assessments. However, the effectiveness of these assessments and the optimal strategies for employing them vary considerably across different platforms, journals, and conferences. Additionally, the most suitable inputs for ChatGPT appear to differ depending on the platform.