Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs

📄 arXiv: 2408.06752v2 📥 PDF

作者: Mike Thelwall

分类: cs.DL, cs.AI

发布日期: 2024-08-13 (更新: 2024-11-29)


💡 一句话要点

利用大型语言模型评估研究质量:分析ChatGPT在不同设置和输入下的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 研究质量评估 ChatGPT 自然语言处理 学术论文 自动化评估 文本分析

📋 核心要点

  1. 国家研究评估等任务需要耗时的人工评估学术文章质量,现有方法效率低,成本高昂。
  2. 利用大型语言模型(LLM)ChatGPT,通过不同输入和提示,评估其对研究质量的评分能力。
  3. 实验表明,使用文章标题和摘要作为输入,ChatGPT 4o模型表现最佳,与人工评分的相关性达到0.67。

📝 摘要(中文)

评估学术期刊文章的质量是一项耗时但对国家研究评估、任命和晋升至关重要的任务。因此,研究大型语言模型(LLM)是否可以在此过程中发挥作用非常重要。本文评估了哪些ChatGPT输入(不含表格、图形和参考文献的全文;标题和摘要;仅标题)能产生更高质量的分数估计,以及分数在多大程度上受到ChatGPT模型和系统提示的影响。结果表明,最佳输入是文章标题和摘要,基于这些的平均ChatGPT分数(在包含51篇论文的数据集上进行30次迭代)与人类分数的相关性为0.67,是迄今为止报道的最高值。ChatGPT 4o略优于3.5-turbo(0.66)和4o-mini(0.66)。结果表明,文章全文可能会混淆LLM的研究质量评估,即使针对该任务的复杂系统指令比简单的指令更有效。因此,虽然摘要包含的信息不足以进行彻底的严谨性评估,但它们可能包含关于原创性和重要性的有力线索。最后,线性回归可用于将模型分数转换为人类尺度分数,其准确率比猜测高31%。

🔬 方法详解

问题定义:论文旨在解决学术文章质量评估过程中人工评估耗时且成本高昂的问题。现有方法依赖专家评审,效率低,且可能存在主观偏差。因此,如何利用自动化方法快速、客观地评估研究质量成为一个重要的研究方向。

核心思路:论文的核心思路是探索大型语言模型(LLM)在研究质量评估中的潜力。通过将学术文章的不同部分(如标题、摘要、全文)作为输入,并结合不同的系统提示,评估LLM对研究质量的评分能力。核心在于找到最佳的输入方式和模型设置,以最大程度地提高LLM评分与人工评分的相关性。

技术框架:该研究的技术框架主要包括以下几个步骤:1. 数据集构建:收集包含人工评分的学术文章数据集。2. 输入选择:选择文章的不同部分作为LLM的输入,包括标题、摘要和全文。3. 模型选择:选择不同的ChatGPT模型,如3.5-turbo、4o和4o-mini。4. 系统提示设计:设计不同的系统提示,包括简单指令和复杂指令。5. 评分与评估:使用LLM对文章进行评分,并计算LLM评分与人工评分的相关性。6. 线性回归:使用线性回归模型将LLM评分转换为人类尺度评分。

关键创新:论文的关键创新在于发现使用文章标题和摘要作为输入,结合ChatGPT 4o模型,可以获得与人工评分最高的0.67相关性。此外,论文还发现复杂的系统指令比简单的指令更有效,但文章全文可能会混淆LLM的研究质量评估。

关键设计:论文的关键设计包括:1. 输入选择:选择文章标题和摘要作为最佳输入,平衡了信息量和计算复杂度。2. 模型选择:选择ChatGPT 4o模型,因为它在实验中表现最佳。3. 系统提示设计:设计了包含明确评估标准的复杂系统指令。4. 评估指标:使用Pearson相关系数评估LLM评分与人工评分的相关性。5. 线性回归:使用线性回归模型将LLM评分转换为人类尺度评分,提高了评分的准确性。

📊 实验亮点

实验结果表明,使用文章标题和摘要作为输入,ChatGPT 4o模型与人工评分的相关性最高,达到0.67,超过以往报道的最高值。ChatGPT 4o略优于3.5-turbo和4o-mini。线性回归可以将模型分数转换为人类尺度分数,准确率比猜测高31%。

🎯 应用场景

该研究成果可应用于国家研究评估、学术期刊评审、人才招聘和晋升等领域,提高评估效率,降低人工成本。通过自动化评估,可以更快速地筛选高质量的研究成果,为科研决策提供支持。未来,该方法可以扩展到其他类型的文本评估任务,如专利评估、项目评估等。

📄 摘要(原文)

Evaluating the quality of academic journal articles is a time consuming but critical task for national research evaluation exercises, appointments and promotion. It is therefore important to investigate whether Large Language Models (LLMs) can play a role in this process. This article assesses which ChatGPT inputs (full text without tables, figures and references; title and abstract; title only) produce better quality score estimates, and the extent to which scores are affected by ChatGPT models and system prompts. The results show that the optimal input is the article title and abstract, with average ChatGPT scores based on these (30 iterations on a dataset of 51 papers) correlating at 0.67 with human scores, the highest ever reported. ChatGPT 4o is slightly better than 3.5-turbo (0.66), and 4o-mini (0.66). The results suggest that article full texts might confuse LLM research quality evaluations, even though complex system instructions for the task are more effective than simple ones. Thus, whilst abstracts contain insufficient information for a thorough assessment of rigour, they may contain strong pointers about originality and significance. Finally, linear regression can be used to convert the model scores into the human scale scores, which is 31% more accurate than guessing.