Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats

作者: Will Yeadon, Tom Hardy, Paul Mackay, Elise Agra

分类: physics.ed-ph, cs.CL

发布日期: 2026-03-16

备注: 25 pages, 26 figures

💡 一句话要点

研究表明，LLM作为评分者的有效性取决于物理评估任务的标准参照性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动化评估 物理教育 标准参照性 评分有效性

📋 核心要点

现有自动化评估方法难以保证LLM评分的可靠性，尤其是在不同物理评估形式下。
研究通过对比LLM与人类评分，评估不同条件下LLM在结构化问题、论文和绘图等任务中的评分有效性。
实验结果表明，LLM评分的有效性与任务的标准参照性密切相关，而非仅仅取决于模型本身的能力。

📝 摘要（中文）

本文评估了大型语言模型（LLM）在物理评估中的评分能力，涵盖结构化问题、书面论文和科学绘图三种形式。通过对比GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3以及委员会集成模型与人类评分者，研究在盲评、提供标准答案、提供错误答案和锚定范例等条件下LLM的评分表现。对于771道大学考试题，模型实现了约0.22的平均绝对误差，并具有较强的区分效度（Spearman ρ>0.6）。对于1151道中小学和大学结构化问题，提供标准答案可降低误差并增强效度（委员会集成模型ρ=0.88）；提供错误答案会降低绝对准确性，但排序基本保持不变（委员会集成模型ρ=0.77；个体模型ρ≥0.59）。论文评分表现截然不同，在55份试卷（275篇论文）中，盲评AI评分比人类评分更严格且更不稳定，区分效度较差（ρ≈0.1）。添加评分标准并不能改善区分度（ρ≈0；所有置信区间均包含零）。锚定范例使AI均值接近人类均值，并压缩方差，但区分效度仍然接近于零。对于基于代码的绘图元素（n=1400），模型实现了极高的区分效度（ρ>0.84），且校准接近线性。研究表明，所有任务类型的有效性都与标准参照性（任务映射到明确、可观察的评分特征的程度）和基准可靠性相关，而非原始模型能力。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）作为评分者在不同物理评估形式下的有效性。现有方法在自动化评估中面临挑战，尤其是在主观性较强的任务（如论文评分）中，LLM的评分质量难以保证，缺乏对LLM评分能力边界的清晰认识。

核心思路：论文的核心思路是通过对比LLM与人类评分者在不同评估任务和条件下的表现，分析影响LLM评分有效性的关键因素。研究假设任务的标准参照性（criterion-referenceability）是决定LLM评分质量的重要因素，即任务越能映射到明确、可观察的评分特征，LLM的评分效果越好。

技术框架：研究采用实验对比的方法，主要流程如下： 1. 选择三种物理评估形式：结构化问题、书面论文和科学绘图。 2. 选取多个LLM模型：GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3等。 3. 设计不同的评分条件：盲评、提供标准答案、提供错误答案和锚定范例。 4. 对比LLM与人类评分者的评分结果，使用平均绝对误差（MAE）、Spearman相关系数等指标评估评分的准确性和区分效度。 5. 分析任务的标准参照性与LLM评分有效性之间的关系。

关键创新：论文最重要的技术创新点在于揭示了任务的标准参照性是影响LLM评分有效性的关键因素。以往的研究更多关注模型本身的能力，而忽略了任务特性对评分结果的影响。本研究强调，即使是强大的LLM，在标准参照性较低的任务中也难以实现有效的评分。

关键设计：研究的关键设计包括： 1. 选择具有代表性的物理评估任务，涵盖客观题和主观题。 2. 设计多种评分条件，模拟不同的实际应用场景。 3. 采用多种评估指标，全面评估LLM评分的准确性和区分效度。 4. 使用委员会集成模型，提高评分的鲁棒性。

🖼️ 关键图片

📊 实验亮点

研究表明，对于结构化问题和科学绘图等标准参照性较高的任务，LLM可以实现较高的评分准确性和区分效度（Spearman ρ>0.8）。提供标准答案可以显著提高LLM的评分质量。然而，对于论文等主观性较强的任务，即使提供评分标准或锚定范例，LLM的评分有效性仍然较低（ρ≈0）。

🎯 应用场景

该研究成果可应用于自动化教育评估系统，尤其是在物理等学科的在线考试和作业批改中。通过了解不同任务类型下LLM评分的有效性，可以更合理地利用LLM辅助教学，提高评估效率，并为学生提供个性化的反馈。此外，该研究也为LLM在其他领域的应用提供了借鉴，例如在法律、医学等领域，评估任务的标准参照性同样重要。

📄 摘要（原文）

As large language models (LLMs) are increasingly considered for automated assessment and feedback, understanding when LLM marking can be trusted is essential. We evaluate LLM-as-a-judge marking across three physics assessment formats - structured questions, written essays, and scientific plots - comparing GPT-5.2, Grok 4.1, Claude Opus 4.5, DeepSeek-V3.2, Gemini Pro 3, and committee aggregations against human markers under blind, solution-provided, false-solution, and exemplar-anchored conditions. For $n=771$ blind university exam questions, models achieve fractional mean absolute errors (fMAE) $\approx 0.22$ with robust discriminative validity (Spearman $ρ> 0.6$). For secondary and university structured questions ($n=1151$), providing official solutions reduces MAE and strengthens validity (committee $ρ= 0.88$); false solutions degrade absolute accuracy but leave rank ordering largely intact (committee $ρ= 0.77$; individual models $ρ\geq 0.59$). Essay marking behaves fundamentally differently. Across $n=55$ scripts ($n=275$ essays), blind AI marking is harsher and more variable than human marking, with discriminative validity already poor ($ρ\approx 0.1$). Adding a mark scheme does not improve discrimination ($ρ\approx 0$; all confidence intervals include zero). Anchored exemplars shift the AI mean close to the human mean and compress variance below the human standard deviation, but discriminative validity remains near-zero - distributional agreement can occur without valid discrimination. For code-based plot elements ($n=1400$), models achieve exceptionally high discriminative validity ($ρ> 0.84$) with near-linear calibration. Across all task types, validity tracks criterion-referenceability - the extent to which a task maps to explicit, observable grading features - and benchmark reliability, rather than raw model capability.

Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理