Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats

📄 arXiv: 2603.14732v1 📥 PDF

作者: Will Yeadon, Tom Hardy, Paul Mackay, Elise Agra

分类: physics.ed-ph, cs.CL

发布日期: 2026-03-16

备注: 25 pages, 26 figures


💡 一句话要点

研究表明,LLM作为评分者的有效性取决于物理评估任务的标准参照性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动化评估 物理教育 标准参照性 评分有效性

📋 核心要点

  1. 现有自动化评估方法难以保证LLM评分的可靠性,尤其是在不同物理评估形式下。
  2. 研究通过对比LLM与人类评分,评估不同条件下LLM在结构化问题、论文和绘图等任务中的评分有效性。
  3. 实验结果表明,LLM评分的有效性与任务的标准参照性密切相关,而非仅仅取决于模型本身的能力。

📝 摘要(中文)

本文评估了大型语言模型(LLM)在物理评估中的评分能力,涵盖结构化问题、书面论文和科学绘图三种形式。通过对比GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3以及委员会集成模型与人类评分者,研究在盲评、提供标准答案、提供错误答案和锚定范例等条件下LLM的评分表现。对于771道大学考试题,模型实现了约0.22的平均绝对误差,并具有较强的区分效度(Spearman ρ>0.6)。对于1151道中小学和大学结构化问题,提供标准答案可降低误差并增强效度(委员会集成模型ρ=0.88);提供错误答案会降低绝对准确性,但排序基本保持不变(委员会集成模型ρ=0.77;个体模型ρ≥0.59)。论文评分表现截然不同,在55份试卷(275篇论文)中,盲评AI评分比人类评分更严格且更不稳定,区分效度较差(ρ≈0.1)。添加评分标准并不能改善区分度(ρ≈0;所有置信区间均包含零)。锚定范例使AI均值接近人类均值,并压缩方差,但区分效度仍然接近于零。对于基于代码的绘图元素(n=1400),模型实现了极高的区分效度(ρ>0.84),且校准接近线性。研究表明,所有任务类型的有效性都与标准参照性(任务映射到明确、可观察的评分特征的程度)和基准可靠性相关,而非原始模型能力。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)作为评分者在不同物理评估形式下的有效性。现有方法在自动化评估中面临挑战,尤其是在主观性较强的任务(如论文评分)中,LLM的评分质量难以保证,缺乏对LLM评分能力边界的清晰认识。

核心思路:论文的核心思路是通过对比LLM与人类评分者在不同评估任务和条件下的表现,分析影响LLM评分有效性的关键因素。研究假设任务的标准参照性(criterion-referenceability)是决定LLM评分质量的重要因素,即任务越能映射到明确、可观察的评分特征,LLM的评分效果越好。

技术框架:研究采用实验对比的方法,主要流程如下: 1. 选择三种物理评估形式:结构化问题、书面论文和科学绘图。 2. 选取多个LLM模型:GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3等。 3. 设计不同的评分条件:盲评、提供标准答案、提供错误答案和锚定范例。 4. 对比LLM与人类评分者的评分结果,使用平均绝对误差(MAE)、Spearman相关系数等指标评估评分的准确性和区分效度。 5. 分析任务的标准参照性与LLM评分有效性之间的关系。

关键创新:论文最重要的技术创新点在于揭示了任务的标准参照性是影响LLM评分有效性的关键因素。以往的研究更多关注模型本身的能力,而忽略了任务特性对评分结果的影响。本研究强调,即使是强大的LLM,在标准参照性较低的任务中也难以实现有效的评分。

关键设计:研究的关键设计包括: 1. 选择具有代表性的物理评估任务,涵盖客观题和主观题。 2. 设计多种评分条件,模拟不同的实际应用场景。 3. 采用多种评估指标,全面评估LLM评分的准确性和区分效度。 4. 使用委员会集成模型,提高评分的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,对于结构化问题和科学绘图等标准参照性较高的任务,LLM可以实现较高的评分准确性和区分效度(Spearman ρ>0.8)。提供标准答案可以显著提高LLM的评分质量。然而,对于论文等主观性较强的任务,即使提供评分标准或锚定范例,LLM的评分有效性仍然较低(ρ≈0)。

🎯 应用场景

该研究成果可应用于自动化教育评估系统,尤其是在物理等学科的在线考试和作业批改中。通过了解不同任务类型下LLM评分的有效性,可以更合理地利用LLM辅助教学,提高评估效率,并为学生提供个性化的反馈。此外,该研究也为LLM在其他领域的应用提供了借鉴,例如在法律、医学等领域,评估任务的标准参照性同样重要。

📄 摘要(原文)

As large language models (LLMs) are increasingly considered for automated assessment and feedback, understanding when LLM marking can be trusted is essential. We evaluate LLM-as-a-judge marking across three physics assessment formats - structured questions, written essays, and scientific plots - comparing GPT-5.2, Grok 4.1, Claude Opus 4.5, DeepSeek-V3.2, Gemini Pro 3, and committee aggregations against human markers under blind, solution-provided, false-solution, and exemplar-anchored conditions. For $n=771$ blind university exam questions, models achieve fractional mean absolute errors (fMAE) $\approx 0.22$ with robust discriminative validity (Spearman $ρ> 0.6$). For secondary and university structured questions ($n=1151$), providing official solutions reduces MAE and strengthens validity (committee $ρ= 0.88$); false solutions degrade absolute accuracy but leave rank ordering largely intact (committee $ρ= 0.77$; individual models $ρ\geq 0.59$). Essay marking behaves fundamentally differently. Across $n=55$ scripts ($n=275$ essays), blind AI marking is harsher and more variable than human marking, with discriminative validity already poor ($ρ\approx 0.1$). Adding a mark scheme does not improve discrimination ($ρ\approx 0$; all confidence intervals include zero). Anchored exemplars shift the AI mean close to the human mean and compress variance below the human standard deviation, but discriminative validity remains near-zero - distributional agreement can occur without valid discrimination. For code-based plot elements ($n=1400$), models achieve exceptionally high discriminative validity ($ρ> 0.84$) with near-linear calibration. Across all task types, validity tracks criterion-referenceability - the extent to which a task maps to explicit, observable grading features - and benchmark reliability, rather than raw model capability.