Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring
作者: Kathrin Seßler, Maurice Fürstenberg, Babette Bühler, Enkelejda Kasneci
分类: cs.CL, cs.AI, cs.HC
发布日期: 2024-11-25
备注: Accepted at LAK '25
💡 一句话要点
评估LLM在多维度作文评分中的表现,探索AI辅助教师的新途径
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 作文评分 自然语言处理 教育应用 AI辅助评估
📋 核心要点
- 教师手动评估作文耗时费力,现有方法难以有效降低教师工作负担,亟需新的辅助评估手段。
- 利用大型语言模型(LLM)的生成能力,对比分析不同LLM在多维度作文评分任务中的表现,探索AI辅助评估的可行性。
- 实验结果表明,闭源LLM在语言相关标准上表现优异,新型o1模型与人类评分的相关性最高,但模型普遍倾向于给出更高的分数。
📝 摘要(中文)
学生作文的手动评估和评分对教师来说是一项耗时但至关重要的任务。大型语言模型等生成式AI的最新发展为教师提供了促进作文评分任务的潜在解决方案。本研究评估了开源和闭源LLM在评估德国学生作文方面的性能和可靠性,将其评估结果与37位教师在10个预定义标准(即情节逻辑、表达)上的评分进行比较。使用GPT-3.5、GPT-4、o1、LLaMA 3-70B和Mixtral 8x7B五个LLM分析了来自7年级和8年级学生的20篇真实作文,旨在深入了解LLM的评分能力。闭源GPT模型在内部一致性和与人类评分的一致性方面均优于开源模型,尤其是在与语言相关的标准方面。新型o1模型优于所有其他LLM,在总分方面与人类评估实现了Spearman相关系数r = 0.74,内部一致性ICC = 0.80。这些发现表明,基于LLM的评估可以成为减少教师工作量的有用工具,尤其是在评估与语言相关的标准方面。然而,由于这些模型倾向于给出更高的分数,因此需要进一步改进,以更好地捕捉内容质量。
🔬 方法详解
问题定义:论文旨在解决教师在作文评分过程中耗时费力的问题。现有的人工评分方法效率低,且评分标准容易受到主观因素影响。论文希望探索利用大型语言模型(LLM)自动评估作文,从而减轻教师的负担,并提高评分的效率和客观性。
核心思路:论文的核心思路是利用LLM强大的自然语言处理能力,模拟教师的评分过程,对作文进行多维度评估。通过将LLM的评分结果与教师的评分结果进行对比,评估LLM在作文评分任务中的性能和可靠性。论文重点关注不同LLM在不同评分标准上的表现差异,以及LLM评分结果与人类评分结果的一致性。
技术框架:论文的技术框架主要包括以下几个步骤:1) 收集真实的学生作文数据集;2) 选择多个具有代表性的LLM(包括开源和闭源模型);3) 定义多个作文评分标准(如情节逻辑、表达等);4) 使用LLM对作文进行评分,并记录评分结果;5) 邀请多位教师对同一批作文进行评分,并记录评分结果;6) 对比分析LLM的评分结果与教师的评分结果,评估LLM的性能和可靠性。
关键创新:论文的关键创新在于:1) 对比分析了多个LLM在多维度作文评分任务中的表现,为选择合适的LLM提供了参考;2) 评估了LLM在不同评分标准上的表现差异,揭示了LLM在语言相关标准上的优势;3) 引入了新型o1模型,并证明其在作文评分任务中具有良好的性能。
关键设计:论文的关键设计包括:1) 选择了具有代表性的LLM,包括GPT-3.5、GPT-4、o1、LLaMA 3-70B和Mixtral 8x7B;2) 定义了10个预定义的作文评分标准,涵盖了作文的多个方面;3) 使用Spearman相关系数和内部一致性系数(ICC)等指标,评估LLM评分结果与人类评分结果的一致性。
🖼️ 关键图片
📊 实验亮点
研究表明,闭源GPT模型在内部一致性和与人类评分的一致性方面优于开源模型,尤其是在语言相关标准上表现出色。新型o1模型在总分方面与人类评估实现了Spearman相关系数r = 0.74,内部一致性ICC = 0.80,优于其他LLM。但所有模型都倾向于给出更高的分数,需要在内容质量评估方面进一步改进。
🎯 应用场景
该研究成果可应用于教育领域,开发AI辅助作文评分系统,减轻教师的评分负担,提高评分效率和客观性。此外,该研究还可以为LLM在教育领域的其他应用提供参考,例如自动批改作业、个性化学习辅导等。未来,可以进一步研究如何提高LLM在内容质量评估方面的能力,使其能够更全面地评估作文的质量。
📄 摘要(原文)
The manual assessment and grading of student writing is a time-consuming yet critical task for teachers. Recent developments in generative AI, such as large language models, offer potential solutions to facilitate essay-scoring tasks for teachers. In our study, we evaluate the performance and reliability of both open-source and closed-source LLMs in assessing German student essays, comparing their evaluations to those of 37 teachers across 10 pre-defined criteria (i.e., plot logic, expression). A corpus of 20 real-world essays from Year 7 and 8 students was analyzed using five LLMs: GPT-3.5, GPT-4, o1, LLaMA 3-70B, and Mixtral 8x7B, aiming to provide in-depth insights into LLMs' scoring capabilities. Closed-source GPT models outperform open-source models in both internal consistency and alignment with human ratings, particularly excelling in language-related criteria. The novel o1 model outperforms all other LLMs, achieving Spearman's $r = .74$ with human assessments in the overall score, and an internal consistency of $ICC=.80$. These findings indicate that LLM-based assessment can be a useful tool to reduce teacher workload by supporting the evaluation of essays, especially with regard to language-related criteria. However, due to their tendency for higher scores, the models require further refinement to better capture aspects of content quality.