Using Large Language Models for Automated Grading of Student Writing about Science
作者: Chris Impey, Matthew Wenger, Nikhil Garuda, Shahriar Golchin, Sarah Stamer
分类: cs.CL
发布日期: 2024-12-25
备注: Accepted at IJAIE
DOI: 10.1007/s40593-024-00453-7
💡 一句话要点
利用大型语言模型自动评估学生科学写作,可靠性媲美教师评分。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动评分 科学写作 教育评估 GPT-4
📋 核心要点
- 传统大班科学课程依赖客观评估,忽略写作能力培养,面临评估学生写作的挑战。
- 利用GPT-4,通过提供总分、答案和评分标准,探索LLM自动评估学生科学写作的可行性。
- 实验表明,LLM评分可靠性优于同伴评分,与教师评分相当,为自动评分提供了可能。
📝 摘要(中文)
在大班教学中评估学生的写作是一项重大挑战。因此,大多数大班课程,特别是科学课程,依赖于客观的评估工具,如选择题测验。人工智能的快速发展带来了使用大型语言模型(LLM)评估学生写作的可能性。本研究使用GPT-4进行了一项实验,以确定基于LLM的机器学习方法在评估天文学主题的简短写作作业时,是否能达到或超过教师评分的可靠性。研究对象为通过Coursera提供的三个大型开放式在线课程(MOOC)中的成人学习者。一门课程是天文学,第二门是天体生物学,第三门是天文学史和天文学哲学。研究结果也适用于大学环境中的非科学专业学生,因为他们的内容和评估模式相似。数据包括来自三个课程中120名学生对12个问题的回答。GPT-4获得了教师提供的总分、模型答案和评分标准。除了评估LLM复现教师评分的可靠性外,LLM还负责生成自己的评分标准。总体而言,LLM在总体上和个体学生方面都比同伴评分更可靠,并且在所有三个在线课程中都与教师评分大致相当。这意味着LLM可能很快被用于自动、可靠和可扩展的学生科学写作评分。
🔬 方法详解
问题定义:现有大班科学课程评估主要依赖客观题,无法有效评估学生的写作能力。人工批改写作耗时耗力,难以规模化。因此,如何自动、可靠地评估学生的科学写作成为一个亟待解决的问题。
核心思路:本研究的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,模拟教师的评分过程。通过向LLM提供教师的评分标准、范例答案和学生提交的文本,让LLM学习并预测学生的得分。这样可以实现自动化的评分,并有望达到或超过人工评分的可靠性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集来自三个Coursera MOOC课程中学生的写作答案。2) 数据准备:整理教师提供的评分标准、范例答案和学生答案,并进行必要的预处理。3) 模型训练/评估:使用GPT-4作为LLM,输入评分标准、范例答案和学生答案,让GPT-4预测学生得分。将GPT-4的预测结果与教师的评分进行比较,评估LLM的评分可靠性。4) 评分标准生成:让GPT-4根据范例答案自动生成评分标准,并评估其质量。
关键创新:本研究的关键创新在于探索了使用LLM进行自动科学写作评分的可行性,并验证了LLM在评分可靠性方面可以媲美教师。此外,研究还探索了LLM自动生成评分标准的能力,为未来的自动化评分系统提供了新的思路。
关键设计:研究的关键设计包括:1) 使用GPT-4作为LLM,利用其强大的语言能力。2) 提供详细的教师评分标准和范例答案,帮助LLM更好地理解评分规则。3) 采用多种指标评估LLM的评分可靠性,包括与教师评分的比较、与同伴评分的比较等。4) 探索LLM自动生成评分标准的能力,为未来的自动化评分系统提供参考。
📊 实验亮点
实验结果表明,GPT-4在评估学生科学写作方面的可靠性优于同伴评分,并且与教师评分大致相当。这意味着LLM有潜力取代人工评分,实现自动、可靠和可扩展的写作评估。具体性能数据未知,但结论表明LLM在教育评估领域具有显著的应用前景。
🎯 应用场景
该研究成果可应用于大规模在线教育平台,实现自动化的学生写作评估,减轻教师负担,提高教学效率。同时,也可用于辅助教师进行写作教学,提供个性化的反馈和指导。未来,该技术有望推广到其他学科领域,实现更广泛的自动化评估。
📄 摘要(原文)
Assessing writing in large classes for formal or informal learners presents a significant challenge. Consequently, most large classes, particularly in science, rely on objective assessment tools such as multiple-choice quizzes, which have a single correct answer. The rapid development of AI has introduced the possibility of using large language models (LLMs) to evaluate student writing. An experiment was conducted using GPT-4 to determine if machine learning methods based on LLMs can match or exceed the reliability of instructor grading in evaluating short writing assignments on topics in astronomy. The audience consisted of adult learners in three massive open online courses (MOOCs) offered through Coursera. One course was on astronomy, the second was on astrobiology, and the third was on the history and philosophy of astronomy. The results should also be applicable to non-science majors in university settings, where the content and modes of evaluation are similar. The data comprised answers from 120 students to 12 questions across the three courses. GPT-4 was provided with total grades, model answers, and rubrics from an instructor for all three courses. In addition to evaluating how reliably the LLM reproduced instructor grades, the LLM was also tasked with generating its own rubrics. Overall, the LLM was more reliable than peer grading, both in aggregate and by individual student, and approximately matched instructor grades for all three online courses. The implication is that LLMs may soon be used for automated, reliable, and scalable grading of student science writing.