Designing Reliable LLM-Assisted Rubric Scoring for Constructed Responses: Evidence from Physics Exams
作者: Xiuxiu Tang, G. Alex Ambrose, Ying Cheng
分类: cs.AI, cs.CL
发布日期: 2026-04-14
💡 一句话要点
设计可靠的LLM辅助物理考试评分系统,提升评分一致性与效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM辅助评分 物理考试 评分标准设计 GPT-4o 评分一致性 STEM教育 手写作答 AI辅助教学
📋 核心要点
- 传统STEM考试评分耗时且易受评分者主观因素影响,尤其是在需要细致的部分给分时,这阻碍了高效的教学反馈。
- 本研究探索了利用GPT-4o辅助物理考试作答评分,通过优化评分标准和LLM配置,提升评分的可靠性和一致性。
- 实验表明,清晰细化的评分标准是提升AI辅助评分可靠性的关键,人-AI评分一致性可与人类评分者间一致性媲美。
📝 摘要(中文)
STEM评估中的学生作答通常是手写的,并结合了符号表达式、计算和图表,这导致格式和解释上存在很大的差异。尽管这些作答对于评估学生的推理能力至关重要,但评分耗时且容易出现评分者不一致的情况,尤其是在需要部分给分时。大型语言模型(LLM)的最新进展增加了人们对AI辅助评分的关注,但关于评分标准设计和LLM配置如何影响不同表现水平的可靠性的证据仍然有限。本研究使用GPT-4o检验了AI辅助评分本科物理作答题的可靠性。四位教师和AI模型使用不同分析粒度的基于技能的评分标准对20份真实的手写考试作答进行了两轮评分。系统地改变了提示格式和温度设置。总体而言,人-AI在总分上的一致性与人类评分者之间的一致性相当,并且对于高分和低分作答的一致性最高,但对于涉及部分或模糊推理的中等水平作答的一致性有所下降。标准层面的分析表明,对于明确定义的概念性技能,一致性更强,而对于扩展的程序性判断,一致性较弱。与整体评分相比,更细粒度的、基于清单的评分标准提高了评分一致性。这些发现表明,可靠的AI辅助评分主要取决于清晰、结构良好的评分标准,而提示格式起次要作用,温度的影响相对有限。更广泛地说,该研究为在STEM环境中通过基于技能的评分标准和受控的LLM设置实施可靠的LLM辅助评分提供了可转移的设计建议。
🔬 方法详解
问题定义:本研究旨在解决STEM领域,特别是物理考试中,手写作答题评分耗时、评分者一致性低的问题。现有评分方法依赖人工,易受主观因素影响,尤其是在需要进行部分给分时,导致评分结果的可靠性降低。
核心思路:核心思路是利用大型语言模型(LLM),特别是GPT-4o,辅助评分过程。通过精心设计的评分标准和提示工程,使LLM能够模仿人类专家的评分行为,从而提高评分效率和一致性。研究重点在于探索不同粒度的评分标准和LLM配置(提示格式、温度)对评分可靠性的影响。
技术框架:该研究的技术框架主要包括以下几个步骤:1)收集真实的学生手写物理考试作答;2)由多位人类专家对作答进行评分,作为基准;3)设计不同粒度的基于技能的评分标准(粗粒度 vs. 细粒度);4)使用GPT-4o对作答进行评分,并系统性地改变提示格式和温度设置;5)分析人-AI评分的一致性,以及不同评分标准和LLM配置对一致性的影响。
关键创新:本研究的关键创新在于:1)系统性地研究了评分标准粒度、提示格式和温度等因素对LLM辅助评分可靠性的影响;2)提出了基于技能的评分标准,并验证了其在提高评分一致性方面的有效性;3)提供了在STEM领域实施可靠的LLM辅助评分的可转移设计建议。与现有方法相比,本研究更注重评分标准的结构化设计,而非仅仅依赖LLM的强大能力。
关键设计:关键设计包括:1)评分标准的设计:采用了两种不同粒度的评分标准,一种是较为粗略的整体评分标准,另一种是更细粒度的、基于技能的清单式评分标准。2)提示格式的设计:尝试了不同的提示格式,以引导LLM更好地理解评分任务。3)温度设置:系统性地改变了GPT-4o的温度参数,以探索其对评分结果的影响。研究中使用了Cohen's Kappa系数来衡量评分者之间的一致性。
📊 实验亮点
研究表明,使用清晰、结构化的基于技能的评分标准,GPT-4o辅助评分的总分与人类评分者之间的一致性与人类评分者之间的一致性相当。更细粒度的评分标准显著提高了评分一致性。对于高分和低分作答,人-AI一致性更高,而对于中等水平作答,一致性有所下降。
🎯 应用场景
该研究成果可广泛应用于STEM教育领域,例如大规模在线考试、作业自动评分、个性化学习反馈等。通过降低人工评分成本、提高评分一致性,可以有效提升教学效率和质量。未来,该方法还可以扩展到其他需要主观判断的评估场景,例如论文评审、项目评估等。
📄 摘要(原文)
Student responses in STEM assessments are often handwritten and combine symbolic expressions, calculations, and diagrams, creating substantial variation in format and interpretation. Despite their importance for evaluating students' reasoning, such responses are time-consuming to score and prone to rater inconsistency, particularly when partial credit is required. Recent advances in large language models (LLMs) have increased attention to AI-assisted scoring, yet evidence remains limited regarding how rubric design and LLM configurations influence reliability across performance levels. This study examined the reliability of AI-assisted scoring of undergraduate physics constructed responses using GPT-4o. Twenty authentic handwritten exam responses were scored across two rounds by four instructors and by the AI model using skill-based rubrics with differing levels of analytic granularity. Prompting format and temperature settings were systematically varied. Overall, human-AI agreement on total scores was comparable to human inter-rater reliability and was highest for high- and low-performing responses, but declined for mid-level responses involving partial or ambiguous reasoning. Criterion-level analyses showed stronger alignment for clearly defined conceptual skills than for extended procedural judgments. A more fine-grained, checklist-based rubric improved consistency relative to holistic scoring. These findings indicate that reliable AI-assisted scoring depends primarily on clear, well-structured rubrics, while prompting format plays a secondary role and temperature has relatively limited impact. More broadly, the study provides transferable design recommendations for implementing reliable LLM-assisted scoring in STEM contexts through skill-based rubrics and controlled LLM settings.