GPT vs Human for Scientific Reviews: A Dual Source Review on Applications of ChatGPT in Science
作者: Chenxi Wu, Alan John Varghese, Vivek Oommen, George Em Karniadakis
分类: cs.CL, cs.AI
发布日期: 2023-12-05
💡 一句话要点
对比GPT与人类的科学评论:评估ChatGPT在科学应用中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 科学评审 ChatGPT 人工智能 自然语言处理
📋 核心要点
- 现有科学评审流程耗时且可能存在偏见,缺乏对大量数据的有效分析能力,难以快速识别新兴趋势和研究空白。
- 该研究对比了人类审稿人和SciSpace对科学论文的评审结果,并使用不同类型的评估者(包括GPT模型和人类)进行评估。
- 实验结果表明,SciSpace在客观问题上与人类审稿人具有一定一致性,但在结构、清晰度和完整性方面表现更优。
📝 摘要(中文)
大型语言模型(LLMs)有望加速科学评论过程,通过更客观的量化指标、促进跨学科联系以及识别新兴趋势和研究差距。然而,目前它们缺乏对复杂方法论的深刻理解,难以评估创新性主张,并且无法评估伦理问题和利益冲突。本文评估了人类审稿人和SciSpace(一种大型语言模型)对13篇GPT相关论文的评审结果,这些论文涵盖不同的科学领域。评审结果由三种类型的评估者进行评估:GPT-3.5、众包小组和GPT-4。结果表明,SciSpace对客观问题的回答与人类审稿人的一致率达到50%。GPT-4(知情评估者)通常认为人类审稿人在准确性方面更高,而SciSpace在结构、清晰度和完整性方面更胜一筹。在主观问题上,不知情的评估者(GPT-3.5和众包小组)对SciSpace和人类的回答表现出不同的偏好,众包小组更倾向于人类的回答。然而,GPT-4认为两者在准确性和结构上相当,但在完整性方面更倾向于SciSpace。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在科学论文评审中的表现,特别是与人类评审员相比的优缺点。现有评审流程存在耗时、主观性强、难以处理大量数据等痛点。
核心思路:核心思路是通过对比人类评审员和LLM(SciSpace)对同一批科学论文的评审结果,并使用不同的评估者(包括GPT模型和人类)来评估这些评审结果的质量,从而量化LLM在科学评审中的能力。
技术框架:整体框架包括三个主要步骤:1) 选择13篇GPT相关的科学论文;2) 由人类评审员和SciSpace分别对这些论文进行评审;3) 使用三种类型的评估者(GPT-3.5、众包小组和GPT-4)对评审结果进行评估。评估者需要对评审结果的准确性、结构、清晰度和完整性进行评分。
关键创新:该研究的关键创新在于使用多种评估者(包括LLM本身)来评估LLM在科学评审中的表现,从而避免了单一评估者的主观性。此外,该研究还区分了客观问题和主观问题,并分别评估了LLM在不同类型问题上的表现。
关键设计:评估指标包括准确性、结构、清晰度和完整性。使用了三种类型的评估者:GPT-3.5(不知情评估者)、众包小组(不知情评估者)和GPT-4(知情评估者)。通过对比不同评估者对人类评审和SciSpace评审的评分,可以更全面地了解LLM在科学评审中的优势和劣势。
📊 实验亮点
实验结果表明,SciSpace对客观问题的回答与人类审稿人的一致率达到50%。GPT-4(知情评估者)通常认为人类审稿人在准确性方面更高,而SciSpace在结构、清晰度和完整性方面更胜一筹。在主观问题上,不同评估者对SciSpace和人类的回答表现出不同的偏好,但GPT-4认为两者在准确性和结构上相当,但在完整性方面更倾向于SciSpace。
🎯 应用场景
该研究成果可应用于改进科学论文评审流程,例如利用LLM辅助评审员进行初步筛选和信息提取,提高评审效率和客观性。此外,该研究还可以为LLM在其他科学领域的应用提供参考,例如科研数据分析、文献综述等。未来,LLM有望成为科研人员的重要助手。
📄 摘要(原文)
The new polymath Large Language Models (LLMs) can speed-up greatly scientific reviews, possibly using more unbiased quantitative metrics, facilitating cross-disciplinary connections, and identifying emerging trends and research gaps by analyzing large volumes of data. However, at the present time, they lack the required deep understanding of complex methodologies, they have difficulty in evaluating innovative claims, and they are unable to assess ethical issues and conflicts of interest. Herein, we consider 13 GPT-related papers across different scientific domains, reviewed by a human reviewer and SciSpace, a large language model, with the reviews evaluated by three distinct types of evaluators, namely GPT-3.5, a crowd panel, and GPT-4. We found that 50% of SciSpace's responses to objective questions align with those of a human reviewer, with GPT-4 (informed evaluator) often rating the human reviewer higher in accuracy, and SciSpace higher in structure, clarity, and completeness. In subjective questions, the uninformed evaluators (GPT-3.5 and crowd panel) showed varying preferences between SciSpace and human responses, with the crowd panel showing a preference for the human responses. However, GPT-4 rated them equally in accuracy and structure but favored SciSpace for completeness.