Can Large Language Models Make the Grade? An Empirical Study Evaluating LLMs Ability to Mark Short Answer Questions in K-12 Education

📄 arXiv: 2405.02985v1 📥 PDF

作者: Owen Henkel, Adam Boxer, Libby Hills, Bill Roberts

分类: cs.CL, cs.AI

发布日期: 2024-05-05


💡 一句话要点

利用大型语言模型评估K-12教育中简答题的自动评分能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评分 K-12教育 简答题 提示工程

📋 核心要点

  1. 现有教育评估中,人工评分成本高昂且耗时,缺乏大规模个性化反馈的能力。
  2. 利用GPT系列模型,结合少量样本提示工程,探索其在K-12教育简答题自动评分中的潜力。
  3. 实验表明,GPT-4在多个学科和年级上,评分表现接近人类专家水平,Kappa系数达到0.70。

📝 摘要(中文)

本文报告了一系列实验,使用一个全新的数据集评估大型语言模型(LLMs)对简答题开放文本回答的评分能力。具体而言,我们研究了不同GPT版本和提示工程策略的组合在评分真实学生对不同领域(科学和历史)和年级(5-16岁)的简答题回答时的表现,使用来自Carousel(一个测验平台)的全新数据集。我们发现,采用基本少量样本提示的GPT-4表现良好(Kappa系数为0.70),并且重要的是,非常接近人类水平的表现(0.75)。这项研究建立在先前发现的基础上,即GPT-4能够以非常接近专家人类评分者的水平可靠地对简答阅读理解题进行评分。在各种科目和年级水平上接近人类水平的表现表明,LLM可能成为支持K-12教育中低风险形成性评估任务的宝贵工具,并对现实世界的教育交付产生重要影响。

🔬 方法详解

问题定义:论文旨在解决K-12教育中简答题评分效率低下的问题。传统的人工评分方式耗时费力,难以实现大规模的个性化反馈,阻碍了教学效果的提升。现有自动评分方法可能泛化性不足,难以适应不同学科和年级的题目。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的文本理解和生成能力,模拟人类评分者的思维过程,对学生的简答题进行自动评分。通过提示工程,引导LLM理解评分标准,并给出合理的评分。

技术框架:论文采用的整体框架是:首先,构建一个包含学生简答题回答和人工评分的数据集。然后,选择不同的GPT版本(主要是GPT-4),并设计不同的提示策略(包括少量样本提示)。接着,使用LLM对学生的回答进行评分,并将LLM的评分结果与人工评分进行比较,评估LLM的评分性能。最后,分析实验结果,探讨LLM在不同学科和年级的适用性。

关键创新:论文的关键创新在于:1) 使用了全新的、从未公开过的K-12教育简答题数据集,涵盖多个学科和年级;2) 系统地评估了不同GPT版本和提示策略在简答题自动评分中的表现;3) 验证了GPT-4在多个学科和年级上,评分表现接近人类专家水平,证明了LLM在教育评估领域的潜力。

关键设计:论文的关键设计包括:1) 少量样本提示:通过提供少量已评分的样本,引导LLM理解评分标准;2) Kappa系数:使用Kappa系数评估LLM评分结果与人工评分的一致性;3) 多学科和多年级评估:在科学和历史等不同学科,以及5-16岁不同年级上进行评估,验证LLM的泛化能力。

📊 实验亮点

实验结果表明,采用基本少量样本提示的GPT-4在简答题评分任务中表现出色,Kappa系数达到0.70,非常接近人类水平的0.75。该结果在科学和历史等多个学科,以及5-16岁不同年级上均得到验证,表明GPT-4具有良好的泛化能力。这为LLM在教育评估领域的应用提供了有力支持。

🎯 应用场景

该研究成果可应用于K-12教育领域的低风险形成性评估,为学生提供即时反馈,辅助教师进行教学调整。此外,还可扩展到其他需要文本评估的场景,如论文评审、代码审查等,具有广泛的应用前景和实际价值。未来,可以进一步研究如何利用LLM生成个性化反馈,提升学生的学习效果。

📄 摘要(原文)

This paper presents reports on a series of experiments with a novel dataset evaluating how well Large Language Models (LLMs) can mark (i.e. grade) open text responses to short answer questions, Specifically, we explore how well different combinations of GPT version and prompt engineering strategies performed at marking real student answers to short answer across different domain areas (Science and History) and grade-levels (spanning ages 5-16) using a new, never-used-before dataset from Carousel, a quizzing platform. We found that GPT-4, with basic few-shot prompting performed well (Kappa, 0.70) and, importantly, very close to human-level performance (0.75). This research builds on prior findings that GPT-4 could reliably score short answer reading comprehension questions at a performance-level very close to that of expert human raters. The proximity to human-level performance, across a variety of subjects and grade levels suggests that LLMs could be a valuable tool for supporting low-stakes formative assessment tasks in K-12 education and has important implications for real-world education delivery.