Exploring the Utilities of the Rationales from Large Language Models to Enhance Automated Essay Scoring

作者: Hong Jiao, Hanna Choi, Haowei Hua

分类: cs.LG

发布日期: 2025-10-31

备注: 12 pages, 3 figures

💡 一句话要点

利用大语言模型生成理由提升自动作文评分性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大语言模型 理由生成 集成学习 类别不平衡

📋 核心要点

现有自动作文评分模型在处理类别不平衡数据时，对少数类别的评分准确率较低，影响整体性能。
利用大语言模型生成对作文评分的理由，并将其作为辅助信息，提升对少数类别的评分准确率。
实验表明，基于理由的评分在少数类别上表现更好，集成作文和理由的评分模型可进一步提升整体评分准确率。

📝 摘要（中文）

本研究探索了GPT-4.1和GPT-5生成的理由在自动评分中的效用，使用了2012年Kaggle ASAP数据集中的Prompt 6作文。对比了基于作文的评分和基于理由的评分。研究发现，总体而言，基于作文的评分表现优于基于理由的评分，具有更高的二次加权Kappa系数（QWK）。然而，对于由于类别不平衡问题而代表性不足的0分，基于理由的评分在F1分数方面实现了更高的评分准确率。基于作文的评分模型的集成建模提高了特定分数级别和所有分数级别的评分准确率。基于作文的评分与每个基于理由的评分的集成建模表现大致相同。进一步将基于作文的评分和两种基于理由的评分进行集成，获得了最佳评分准确率，QWK为0.870，而文献中报告的QWK为0.848。

🔬 方法详解

问题定义：论文旨在解决自动作文评分中，由于数据集类别不平衡导致的少数类别评分准确率低的问题。现有方法主要依赖作文本身的内容进行评分，忽略了评分理由可能包含的有用信息，导致对少数类别的区分能力不足。

核心思路：论文的核心思路是利用大语言模型（GPT-4.1和GPT-5）生成对作文评分的理由，并将这些理由作为辅助信息，与作文内容一起用于自动评分。通过集成基于作文和基于理由的评分模型，提升整体评分的准确率，尤其是在少数类别上的表现。

技术框架：整体框架包括三个主要步骤：1) 使用GPT-4.1和GPT-5生成作文的评分理由；2) 分别构建基于作文和基于理由的评分模型；3) 将基于作文和基于理由的评分模型进行集成，得到最终的评分结果。具体来说，首先使用预训练的大语言模型对作文进行分析，生成评分理由。然后，分别训练基于作文内容和基于评分理由的评分模型。最后，通过集成学习的方法，将两个模型的预测结果进行融合，得到最终的评分。

关键创新：论文的关键创新在于将大语言模型生成的评分理由引入到自动作文评分任务中。与传统方法仅依赖作文内容不同，该方法利用大语言模型对作文的理解能力，生成更具解释性的评分依据，从而提升了评分的准确性和可靠性。此外，通过集成基于作文和基于理由的评分模型，进一步提高了整体评分性能。

关键设计：论文使用了二次加权Kappa系数（QWK）作为主要的评价指标，以衡量评分结果的一致性。在模型集成方面，采用了简单的加权平均方法，将基于作文和基于理由的评分模型的预测结果进行融合。具体参数设置和网络结构等技术细节在论文中未详细说明，属于未知信息。

📊 实验亮点

实验结果表明，基于作文的评分模型表现优于基于理由的评分模型，但基于理由的评分模型在少数类别（0分）上具有更高的F1分数。通过集成基于作文和基于理由的评分模型，最终获得了0.870的QWK，相比于文献中报告的0.848，提升了约2.6%。这表明利用大语言模型生成的理由可以有效提升自动作文评分的性能。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改系统等领域，提高自动作文评分的准确性和效率。通过引入大语言模型生成的评分理由，可以为学生提供更具解释性的反馈，帮助他们更好地理解评分标准和改进写作技巧。此外，该方法还可以扩展到其他文本评分任务中，例如论文评分、代码评审等。

📄 摘要（原文）

This study explored the utilities of rationales generated by GPT-4.1 and GPT-5 in automated scoring using Prompt 6 essays from the 2012 Kaggle ASAP data. Essay-based scoring was compared with rationale-based scoring. The study found in general essay-based scoring performed better than rationale-based scoring with higher Quadratic Weighted Kappa (QWK). However, rationale-based scoring led to higher scoring accuracy in terms of F1 scores for score 0 which had less representation due to class imbalance issues. The ensemble modeling of essay-based scoring models increased the scoring accuracy at both specific score levels and across all score levels. The ensemble modeling of essay-based scoring and each of the rationale-based scoring performed about the same. Further ensemble of essay-based scoring and both rationale-based scoring yielded the best scoring accuracy with QWK of 0.870 compared with 0.848 reported in literature.

Exploring the Utilities of the Rationales from Large Language Models to Enhance Automated Essay Scoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理