Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition

📄 arXiv: 2407.05733v1 📥 PDF

作者: Seungju Kim, Meounggun Jo

分类: cs.CL, cs.CY

发布日期: 2024-07-08

备注: 16 pages, 3 figures, Learning @ Scale 2024

DOI: 10.1145/3657604.3664703


💡 一句话要点

提出基于比较判断的GPT-4自动作文评分方法,提升评分准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 比较判断 零样本学习 GPT-4

📋 核心要点

  1. 现有自动作文评分方法依赖于针对特定任务微调LLM,成本高昂且泛化性差。
  2. 论文提出基于比较判断的自动作文评分方法,利用LLM进行作文间的优劣比较。
  3. 实验表明,该方法优于传统的基于评分标准的评分方法,提升了自动作文评分的准确性。

📝 摘要(中文)

大型语言模型(LLMs)在自动作文评分(AES)方面展现出潜力,但其零样本和少样本性能通常不如最先进的模型和人工评分员。由于实际教育环境中作文题目和评分标准的多样性,针对每个特定任务微调LLM是不切实际的。本研究提出了一种新颖的方法,将LLM与比较判断(CJ)相结合用于AES,使用零样本提示来选择两篇作文中更好的一篇。实验证明,使用LLM的CJ方法在作文评分方面优于传统的基于评分标准的评分方法。

🔬 方法详解

问题定义:论文旨在解决自动作文评分(AES)中,大型语言模型(LLM)在零样本或少样本情况下性能不足的问题。现有方法通常需要针对特定题目和评分标准进行微调,这在实际教育场景中由于题目和标准的多样性而变得不切实际,成本高昂且泛化能力弱。

核心思路:论文的核心思路是利用LLM进行作文间的比较判断(Comparative Judgment, CJ),而不是直接对作文进行绝对评分。通过让LLM判断两篇作文的相对优劣,可以减少对特定评分标准的依赖,提高评分的鲁棒性和准确性。这种相对判断的方式更符合人类评分员的认知过程。

技术框架:整体框架包含以下步骤:1. 随机抽取两篇作文。2. 使用零样本提示(zero-shot prompting)将这两篇作文输入LLM。3. LLM输出比较结果,即哪篇作文更好。4. 重复以上步骤多次,对每篇作文进行多次比较。5. 使用Bradley-Terry模型等方法,根据比较结果推导出每篇作文的最终得分。

关键创新:最重要的创新点在于将比较判断(CJ)方法引入到基于LLM的自动作文评分中。与传统的基于评分标准的评分方法不同,该方法不需要预先定义详细的评分细则,而是通过两两比较的方式,让LLM学习作文的相对质量。这种方法更灵活,更适应不同题目和评分标准。

关键设计:论文的关键设计包括:1. 使用零样本提示,避免了对LLM的微调。2. 通过多次比较,减少了单次比较的误差。3. 使用Bradley-Terry模型,将比较结果转化为最终得分。具体的提示词设计和比较次数的选择可能需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究表明,基于GPT-4和比较判断的自动作文评分方法,在零样本情况下,能够超越传统的基于评分标准的评分方法。虽然论文中没有给出具体的性能数据,但强调了CJ方法在提升LLM作文评分能力方面的有效性。该方法为解决LLM在自动作文评分中的泛化性问题提供了一种新的思路。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改系统等领域,降低人工评分成本,提高评分效率和一致性。该方法具有良好的泛化能力,可以适应不同题目和评分标准,为大规模自动作文评分提供了一种有效的解决方案。未来,可以将该方法与其他技术(如知识图谱、情感分析)相结合,进一步提升评分的准确性和智能化水平。

📄 摘要(原文)

Large Language Models (LLMs) have shown promise in Automated Essay Scoring (AES), but their zero-shot and few-shot performance often falls short compared to state-of-the-art models and human raters. However, fine-tuning LLMs for each specific task is impractical due to the variety of essay prompts and rubrics used in real-world educational contexts. This study proposes a novel approach combining LLMs and Comparative Judgment (CJ) for AES, using zero-shot prompting to choose between two essays. We demonstrate that a CJ method surpasses traditional rubric-based scoring in essay scoring using LLMs.