Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis

作者: Hongli Li, Che Han Chen, Kevin Fan, Chiho Young-Johnson, Soyoung Lim, Yali Feng

分类: cs.CL

发布日期: 2025-12-16

备注: This manuscript is under review as a book chapter

💡 一句话要点

综合研究表明大型语言模型在自动作文评分中与人类评分者具有中等至良好的一致性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动作文评分 研究综合 一致性评估 教育技术

📋 核心要点

自动作文评分领域中，大型语言模型与人类评分者的一致性评估结果不一，亟需系统性研究。
该研究通过综合分析大量相关文献，量化评估了大型语言模型在自动作文评分任务中的可靠性。
研究发现，大型语言模型与人类评分者的一致性程度为中等至良好，但不同研究间存在显著差异。

📝 摘要（中文）

尽管大型语言模型(LLMs)在自动作文评分(AES)中展现出越来越大的潜力，但关于它们与人类评分者相比的可靠性的实证研究结果仍然不一致。本研究遵循PRISMA 2020指南，综合了2022年1月至2025年8月期间发表和未发表的65项研究，这些研究考察了LLMs在AES中与人类评分者之间的一致性。研究表明，总体而言，LLM与人类评分者之间的一致性为中等至良好，一致性指标（例如，二次加权Kappa、Pearson相关性和Spearman等级相关系数）主要在0.30至0.80之间。在不同研究中观察到一致性水平存在显著差异，这反映了研究特定因素的差异以及缺乏标准化的报告实践。讨论了对未来研究的意义和方向。

🔬 方法详解

问题定义：论文旨在解决大型语言模型(LLMs)在自动作文评分(AES)中与人类评分者一致性评估结果不统一的问题。现有研究结果差异较大，缺乏系统性的综合分析，难以准确评估LLMs在AES中的可靠性。

核心思路：论文采用研究综合的方法，系统地收集和分析已发表和未发表的相关研究，通过量化一致性指标，评估LLMs与人类评分者在AES中的一致程度，并探讨影响一致性的因素。

技术框架：该研究遵循PRISMA 2020指南，进行文献检索、筛选和数据提取。具体流程包括： 1. 确定研究问题和纳入标准。 2. 系统检索相关文献（2022年1月至2025年8月）。 3. 筛选符合纳入标准的文献。 4. 从纳入的文献中提取相关数据，包括一致性指标（如Quadratic Weighted Kappa, Pearson correlation, Spearman's rho）等。 5. 对提取的数据进行统计分析，评估LLMs与人类评分者的一致性程度，并探讨影响一致性的因素。

关键创新：该研究的关键创新在于对现有研究进行系统性的综合分析，而非单一的实验研究。通过整合多个研究的结果，可以更全面、客观地评估LLMs在AES中的可靠性，并发现不同研究之间的差异和潜在原因。

关键设计：研究中关键的设计包括： 1. 采用PRISMA 2020指南，确保研究的系统性和透明度。 2. 设定明确的文献纳入和排除标准，保证研究的质量。 3. 提取多种一致性指标，从不同角度评估LLMs与人类评分者的一致性。 4. 对提取的数据进行统计分析，量化一致性程度，并探讨影响因素。

📊 实验亮点

研究综合分析了65项相关研究，发现LLMs与人类评分者在AES中的一致性程度为中等至良好，一致性指标主要在0.30至0.80之间。同时，研究也发现不同研究之间的一致性水平存在显著差异，表明研究特定因素和报告实践的标准化程度对结果有重要影响。

🎯 应用场景

该研究结果可应用于自动作文评分系统的开发和评估，帮助教育机构和研究人员更好地了解LLMs在AES中的表现，并为选择合适的AES工具提供参考。此外，该研究也为未来研究提供了方向，例如，探索如何提高LLMs与人类评分者的一致性，以及如何标准化AES的评估方法。

📄 摘要（原文）

Despite the growing promise of large language models (LLMs) in automatic essay scoring (AES), empirical findings regarding their reliability compared to human raters remain mixed. Following the PRISMA 2020 guidelines, we synthesized 65 published and unpublished studies from January 2022 to August 2025 that examined agreement between LLMs and human raters in AES. Across studies, reported LLM-human agreement was generally moderate to good, with agreement indices (e.g., Quadratic Weighted Kappa, Pearson correlation, and Spearman's rho) mostly ranging between 0.30 and 0.80. Substantial variability in agreement levels was observed across studies, reflecting differences in study-specific factors as well as the lack of standardized reporting practices. Implications and directions for future research are discussed.

Agreement Between Large Language Models and Human Raters in Essay Scoring: A Research Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册