Comparative Analysis of OpenAI GPT-4o and DeepSeek R1 for Scientific Text Categorization Using Prompt Engineering
作者: Aniruddha Maiti, Samuel Adewumi, Temesgen Alemayehu Tikure, Zichun Wang, Niladri Sengupta, Anastasiia Sukhanova, Ananya Jana
分类: cs.CL, cs.AI, cs.CV
发布日期: 2025-03-03
备注: Accepted to ASEE North Central Section 2025
💡 一句话要点
利用提示工程比较OpenAI GPT-4o和DeepSeek R1在科学文本分类中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学文本分类 大型语言模型 提示工程 GPT-4o DeepSeek R1
📋 核心要点
- 现有方法在科学文本分类任务中缺乏针对大型语言模型的系统性评估,尤其是在新兴模型上的表现。
- 该研究通过提示工程,利用GPT-4o和DeepSeek R1对科学文本进行分类,并设计了新的评估方法。
- 研究构建了科学论文数据集,用于比较GPT-4o和DeepSeek R1在科学文本分类任务中的有效性和一致性。
📝 摘要(中文)
本研究探讨了大型语言模型如何利用提示工程对科学论文中的句子进行分类。我们使用两种先进的Web模型,OpenAI的GPT-4o和DeepSeek R1,将句子分类到预定义的关联类别中。DeepSeek R1已在其技术报告中在基准数据集上进行了测试,但其在科学文本分类中的性能仍未得到探索。为了弥补这一差距,我们引入了一种专门为该任务设计的新评估方法。我们还整理了一个来自不同领域的清洗后的科学论文数据集。该数据集为比较这两个模型提供了一个平台,并分析了它们在分类中的有效性和一致性。
🔬 方法详解
问题定义:论文旨在解决科学文本分类问题,即如何将科学论文中的句子自动分类到预定义的类别中。现有方法,特别是针对大型语言模型(LLM)的评估,在科学文本分类领域存在不足,缺乏对新兴LLM(如DeepSeek R1)的系统性评估。
核心思路:论文的核心思路是利用提示工程(Prompt Engineering)来指导LLM(GPT-4o和DeepSeek R1)进行科学文本分类。通过精心设计的提示,引导模型理解句子的上下文和语义,从而准确地将其分类到预定义的类别中。
技术框架:整体框架包括以下几个主要阶段:1) 数据集构建:收集并清洗来自不同领域的科学论文,构建用于模型评估的数据集。2) 提示工程:设计针对科学文本分类任务的提示,包括任务描述、类别定义等。3) 模型推理:使用GPT-4o和DeepSeek R1对数据集中的句子进行分类,基于提示生成分类结果。4) 评估方法:设计新的评估方法,用于评估模型在科学文本分类任务中的性能,包括有效性和一致性。
关键创新:论文的关键创新在于:1) 针对科学文本分类任务,对GPT-4o和DeepSeek R1进行了比较分析,填补了DeepSeek R1在该领域性能评估的空白。2) 提出了专门为科学文本分类任务设计的评估方法,更准确地评估模型在该任务上的表现。3) 构建了一个清洗后的科学论文数据集,为后续研究提供了基准数据集。
关键设计:论文的关键设计包括:1) 提示的设计:提示需要清晰地定义分类任务和类别,并提供足够的上下文信息,以帮助模型理解句子的语义。2) 评估指标的选择:评估指标需要能够反映模型在科学文本分类任务中的有效性和一致性,例如准确率、召回率、F1值等。3) 数据集的构建:数据集需要包含来自不同领域的科学论文,以保证评估结果的泛化能力。
🖼️ 关键图片
📊 实验亮点
该研究首次对DeepSeek R1在科学文本分类任务中的性能进行了评估,并与GPT-4o进行了比较。研究结果表明,两种模型在科学文本分类任务中均表现出一定的有效性,但具体性能数据需要在论文中进一步查看。该研究还构建了一个高质量的科学论文数据集,为后续研究提供了基准。
🎯 应用场景
该研究成果可应用于科研信息抽取、文献综述自动生成、智能科研助手等领域。通过自动分类科学文本,可以提高科研人员的信息检索效率,加速科研成果的传播和应用,并为未来的科研趋势预测提供数据支持。
📄 摘要(原文)
This study examines how large language models categorize sentences from scientific papers using prompt engineering. We use two advanced web-based models, GPT-4o (by OpenAI) and DeepSeek R1, to classify sentences into predefined relationship categories. DeepSeek R1 has been tested on benchmark datasets in its technical report. However, its performance in scientific text categorization remains unexplored. To address this gap, we introduce a new evaluation method designed specifically for this task. We also compile a dataset of cleaned scientific papers from diverse domains. This dataset provides a platform for comparing the two models. Using this dataset, we analyze their effectiveness and consistency in categorization.