Are Large Language Models Good Essay Graders?

作者: Anindita Kundu, Denilson Barbosa

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-09-19

💡 一句话要点

评估大型语言模型在自动作文评分任务中的有效性与人类评分对齐程度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动作文评分 教育 自然语言处理 ChatGPT Llama 提示工程 ASAP数据集

📋 核心要点

现有自动作文评分（AES）系统在教育领域至关重要，但其与人类评分的一致性仍面临挑战，需要更有效的评估方法。
本文探索了利用大型语言模型（LLMs）如ChatGPT和Llama进行AES任务，通过不同的提示方法和学习范式，评估其评分与人类评分的对齐程度。
实验结果表明，LLMs评分普遍偏低且与人类评分相关性较差，但Llama 3表现有所提升，暗示LLMs未来可作为辅助人类评分的工具。

📝 摘要（中文）

本文评估了大型语言模型（LLMs）在评估作文质量方面的有效性，重点关注它们与人类评分的一致性。更准确地说，我们评估了ChatGPT和Llama在自动作文评分（AES）任务中的表现，这是教育领域中一个至关重要的自然语言处理（NLP）应用。我们考虑了零样本和少样本学习以及不同的提示方法。我们将LLMs提供的数值等级与人类评分者提供的分数进行比较，使用了ASAP数据集，这是一个AES任务的著名基准。我们的研究表明，与人类评分者提供的分数相比，LLMs通常会给出较低的分数；此外，这些分数与人类提供的分数的相关性不佳。特别是，与Llama相比，ChatGPT往往更加严厉，并且与人类评估的偏差更大。我们还试验了先前AES方法常用的许多作文特征，包括长度、连接词和过渡词的使用以及可读性指标，包括拼写和语法错误的数量。我们发现，通常，这些特征与人类或LLM分数的相关性都不强。最后，我们报告了Llama 3的结果，正如预期的那样，总体上更好。总的来说，虽然LLMs似乎不能充分替代人类评分，但我们的结果在一定程度上鼓励了它们作为未来辅助人类评分书面作文的工具。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在自动作文评分（AES）任务中的表现，并分析其评分结果与人类评分之间的一致性。现有AES方法可能存在与人类评分标准不一致、泛化能力不足等问题，因此需要探索更有效、更可靠的自动评分方案。

核心思路：论文的核心思路是利用预训练的LLMs（如ChatGPT和Llama）直接进行作文评分，并通过实验分析LLMs的评分结果与人类评分之间的相关性。通过对比不同LLM、不同提示方法以及不同作文特征对评分结果的影响，从而评估LLMs在AES任务中的适用性和局限性。

技术框架：论文的技术框架主要包括以下几个步骤：1) 数据集准备：使用ASAP数据集，该数据集包含大量已由人类评分的作文。2) 模型选择：选择ChatGPT和Llama等LLMs作为评分模型。3) 提示工程：设计不同的提示方法（如零样本、少样本）来指导LLMs进行评分。4) 评分预测：利用LLMs对作文进行评分，得到数值等级。5) 结果评估：将LLMs的评分结果与人类评分进行比较，计算相关性指标，并分析不同因素对评分结果的影响。

关键创新：论文的关键创新在于将预训练的LLMs应用于AES任务，并系统地评估了LLMs的评分性能与人类评分的一致性。此外，论文还分析了不同提示方法、不同作文特征对LLMs评分结果的影响，为后续研究提供了有价值的参考。

关键设计：论文的关键设计包括：1) 采用ASAP数据集作为评估基准，保证了实验结果的可比性。2) 设计了多种提示方法，包括零样本和少样本学习，以探索LLMs的最佳评分策略。3) 考虑了多种作文特征（如长度、连接词使用、可读性等）对评分结果的影响，从而更全面地评估LLMs的评分性能。4) 使用相关性指标（如Pearson相关系数）来衡量LLMs评分与人类评分之间的一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLMs在AES任务中的表现与人类评分存在差距，ChatGPT评分偏低且与人类评分相关性较差，Llama表现稍好。Llama 3在所有测试中表现更佳，但整体而言，LLMs目前尚不能完全替代人类评分。研究还发现，作文长度、连接词使用等特征与LLMs评分的相关性不强。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改系统等领域，辅助教师进行作文评分，提高评分效率和一致性。未来，通过优化LLMs的提示方法和训练策略，有望开发出更智能、更可靠的自动作文评分系统，从而减轻教师负担，提升教学质量。

📄 摘要（原文）

We evaluate the effectiveness of Large Language Models (LLMs) in assessing essay quality, focusing on their alignment with human grading. More precisely, we evaluate ChatGPT and Llama in the Automated Essay Scoring (AES) task, a crucial natural language processing (NLP) application in Education. We consider both zero-shot and few-shot learning and different prompting approaches. We compare the numeric grade provided by the LLMs to human rater-provided scores utilizing the ASAP dataset, a well-known benchmark for the AES task. Our research reveals that both LLMs generally assign lower scores compared to those provided by the human raters; moreover, those scores do not correlate well with those provided by the humans. In particular, ChatGPT tends to be harsher and further misaligned with human evaluations than Llama. We also experiment with a number of essay features commonly used by previous AES methods, related to length, usage of connectives and transition words, and readability metrics, including the number of spelling and grammar mistakes. We find that, generally, none of these features correlates strongly with human or LLM scores. Finally, we report results on Llama 3, which are generally better across the board, as expected. Overall, while LLMs do not seem an adequate replacement for human grading, our results are somewhat encouraging for their use as a tool to assist humans in the grading of written essays in the future.

Are Large Language Models Good Essay Graders?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理