Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis

📄 arXiv: 2512.14561v1 📥 PDF

作者: Hongli Li, Che Han Chen, Kevin Fan, Chiho Young-Johnson, Soyoung Lim, Yali Feng

分类: cs.CL

发布日期: 2025-12-16

备注: This manuscript is under review as a book chapter


💡 一句话要点

综述研究:大型语言模型在作文评分中与人类评分者的一致性分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 一致性分析 系统综述 教育评估

📋 核心要点

  1. 自动作文评分领域中,大型语言模型与人类评分者的一致性评估结果不一,缺乏统一认识。
  2. 该研究通过系统性综述,整合了大量相关研究,分析了LLM与人类评分者在作文评分中的一致性水平。
  3. 研究发现LLM与人类评分者的一致性总体中等到良好,但不同研究间存在显著差异,需标准化报告实践。

📝 摘要(中文)

尽管大型语言模型(LLMs)在自动作文评分(AES)中展现出越来越大的潜力,但关于它们与人类评分者相比的可靠性的实证研究结果仍然不一致。本文遵循PRISMA 2020指南,综合了2022年1月至2025年8月期间发表和未发表的65项研究,这些研究考察了LLMs在AES中与人类评分者之间的一致性。研究表明,总体而言,LLM与人类的一致性处于中等到良好水平,一致性指标(例如,二次加权Kappa系数、Pearson相关系数和Spearman等级相关系数)大多在0.30到0.80之间。在不同研究中,一致性水平存在显著差异,反映了研究特定因素的差异以及缺乏标准化的报告实践。最后,讨论了未来研究的意义和方向。

🔬 方法详解

问题定义:自动作文评分(AES)旨在利用算法自动评估作文质量,降低人工评分成本。然而,现有研究中,大型语言模型(LLMs)在AES中与人类评分者的一致性存在争议,缺乏系统性的评估和分析,导致对LLM在AES中的可靠性认知不足。不同研究采用不同的数据集、评估指标和LLM模型,使得结果难以直接比较,也缺乏标准化的报告流程。

核心思路:本研究采用系统综述的方法,遵循PRISMA 2020指南,对已发表和未发表的相关研究进行收集、筛选和综合分析。通过对大量研究结果的整合,旨在更全面地评估LLM在AES中与人类评分者的一致性水平,并识别影响一致性的关键因素。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 文献检索:在多个数据库中检索2022年1月至2025年8月期间发表的关于LLM在AES中与人类评分者一致性的研究。2) 文献筛选:根据预定的纳入和排除标准,筛选出符合研究要求的文献。3) 数据提取:从筛选出的文献中提取关键信息,包括研究设计、LLM模型、评估指标、一致性水平等。4) 数据综合分析:对提取的数据进行统计分析,评估LLM与人类评分者的一致性水平,并识别影响一致性的因素。

关键创新:该研究的关键创新在于:1) 系统性:采用严格的系统综述方法,保证了研究的全面性和客观性。2) 时效性:涵盖了最新的研究成果,反映了LLM在AES领域的最新进展。3) 综合性:综合考虑了不同研究的设计、模型和评估指标,更全面地评估了LLM与人类评分者的一致性。

关键设计:研究中关键的设计包括:1) 纳入和排除标准:明确定义了纳入和排除标准,保证了研究的质量和一致性。2) 数据提取表格:设计了标准化的数据提取表格,保证了数据提取的准确性和完整性。3) 统计分析方法:采用了适当的统计分析方法,对提取的数据进行分析,评估LLM与人类评分者的一致性水平,例如Quadratic Weighted Kappa, Pearson correlation, and Spearman's rho等一致性指标。

📊 实验亮点

该研究综合分析了65项相关研究,发现LLM与人类评分者在AES中的一致性总体处于中等到良好水平,一致性指标大多在0.30到0.80之间。然而,不同研究间的一致性水平存在显著差异,表明研究特定因素和报告实践对一致性有重要影响。该研究强调了标准化报告实践的重要性,并为未来研究提供了方向。

🎯 应用场景

该研究结果可应用于自动作文评分系统的设计与评估,帮助教育机构和研究人员更好地了解LLM在AES中的可靠性。通过识别影响LLM与人类评分者一致性的关键因素,可以指导LLM模型的优化和评估指标的选择,从而提高AES系统的准确性和公平性。此外,该研究也为未来研究提供了参考,促进AES领域的进一步发展。

📄 摘要(原文)

Despite the growing promise of large language models (LLMs) in automatic essay scoring (AES), empirical findings regarding their reliability compared to human raters remain mixed. Following the PRISMA 2020 guidelines, we synthesized 65 published and unpublished studies from January 2022 to August 2025 that examined agreement between LLMs and human raters in AES. Across studies, reported LLM-human agreement was generally moderate to good, with agreement indices (e.g., Quadratic Weighted Kappa, Pearson correlation, and Spearman's rho) mostly ranging between 0.30 and 0.80. Substantial variability in agreement levels was observed across studies, reflecting differences in study-specific factors as well as the lack of standardized reporting practices. Implications and directions for future research are discussed.