Exploring LLM Autoscoring Reliability in Large-Scale Writing Assessments Using Generalizability Theory
作者: Dan Song, Won-Chan Lee, Hong Jiao
分类: cs.CL
发布日期: 2025-07-26 (更新: 2025-07-29)
💡 一句话要点
利用可推广性理论评估LLM在大规模写作评估中的自动评分可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动评分 可推广性理论 写作评估 混合评分
📋 核心要点
- 大规模写作评估需要耗费大量人力,现有方法难以兼顾效率与评分质量。
- 本研究探索利用LLM进行自动评分,并结合可推广性理论评估其可靠性。
- 实验表明,LLM在特定任务中表现出合理一致性,混合评分模型可提升可靠性。
📝 摘要(中文)
本研究探讨了大型语言模型(LLM)在AP中文语言文化考试写作任务评分中的可靠性评估。利用可推广性理论,研究评估并比较了人类评分员和AI评分员在两种AP中文自由回答写作任务(故事叙述和电子邮件回复)中的评分一致性。这些文章由两名训练有素的人类评分员和七个AI评分员独立评分。每篇文章获得四个分数:一个整体分数和三个分析分数,分别对应于任务完成、表达和语言运用三个方面。结果表明,虽然人类评分员总体上产生了更可靠的分数,但LLM在某些条件下表现出合理的一致性,尤其是在故事叙述任务中。结合人类和AI评分员的综合评分提高了可靠性,这表明混合评分模型可能为大规模写作评估带来好处。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型(LLM)在AP中文写作评估中的自动评分可靠性。现有的人工评分方式成本高昂且耗时,而完全依赖AI评分的可靠性尚未得到充分验证。因此,研究需要确定LLM在多大程度上能够替代或辅助人工评分,以及如何提高LLM评分的可靠性。
核心思路:核心思路是利用可推广性理论(Generalizability Theory,G理论)来量化和比较人类评分员和AI评分员之间的评分一致性。G理论能够将评分差异分解为不同的方差成分,从而评估不同评分来源(如评分员、任务类型)对评分可靠性的影响。通过分析这些方差成分,可以确定哪些因素对评分可靠性影响最大,并据此优化评分策略。
技术框架:研究采用了一个包含两个阶段的框架。第一阶段是数据收集,包括收集AP中文写作任务的样本(故事叙述和电子邮件回复),并由两名人类评分员和七个AI评分员独立评分。每个样本获得四个分数:一个整体分数和三个分析分数(任务完成、表达和语言运用)。第二阶段是数据分析,利用G理论分析评分数据,计算不同评分来源的方差成分,并评估不同评分方案(如仅使用人类评分员、仅使用AI评分员、混合评分)的可靠性。
关键创新:本研究的关键创新在于将可推广性理论应用于评估LLM在写作评估中的可靠性。与传统的信度评估方法相比,G理论能够更全面地分析评分差异的来源,并为优化评分策略提供更细致的指导。此外,研究还探索了混合评分模型,即结合人类和AI评分员的评分来提高整体评分可靠性,这为大规模写作评估提供了一种新的思路。
关键设计:研究中,AP中文写作任务包括故事叙述和电子邮件回复两种类型,旨在考察LLM在不同写作风格和任务要求下的评分表现。评分员包括两名训练有素的人类评分员和七个不同的LLM(具体模型未知)。每个样本获得四个分数,包括一个整体分数和三个分析分数,以更全面地评估LLM的评分能力。可推广性理论分析采用方差分析模型,将评分差异分解为评分员、任务类型、评分维度等因素的方差成分。具体的参数设置和损失函数等技术细节在论文中未明确说明。
📊 实验亮点
研究结果表明,虽然人类评分员总体上产生更可靠的分数,但LLM在故事叙述任务中表现出合理的一致性。更重要的是,结合人类和AI评分员的综合评分显著提高了评分可靠性,表明混合评分模型具有实际应用价值。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于大规模在线教育、语言学习平台和标准化考试等领域,用于提高写作评估的效率和一致性。通过结合人类和AI评分员的优势,可以降低人工评分成本,同时保证评分质量。未来,该研究可以扩展到其他语言和写作任务,为构建更智能、更可靠的自动评分系统提供理论基础和实践指导。
📄 摘要(原文)
This study investigates the estimation of reliability for large language models (LLMs) in scoring writing tasks from the AP Chinese Language and Culture Exam. Using generalizability theory, the research evaluates and compares score consistency between human and AI raters across two types of AP Chinese free-response writing tasks: story narration and email response. These essays were independently scored by two trained human raters and seven AI raters. Each essay received four scores: one holistic score and three analytic scores corresponding to the domains of task completion, delivery, and language use. Results indicate that although human raters produced more reliable scores overall, LLMs demonstrated reasonable consistency under certain conditions, particularly for story narration tasks. Composite scoring that incorporates both human and AI raters improved reliability, which supports that hybrid scoring models may offer benefits for large-scale writing assessments.