CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading

📄 arXiv: 2603.11957v1 📥 PDF

作者: Pranav Raikote, Korbinian Randl, Ioanna Miliou, Athanasios Lakes, Panagiotis Papapetrou

分类: cs.CL

发布日期: 2026-03-12


💡 一句话要点

提出CHiL(L)Grader,用于校准置信度的人工参与式短答案评分框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动评分 置信度校准 人机协作 持续学习 大型语言模型 教育评估

📋 核心要点

  1. 现有指令调优的大语言模型在自动评分中存在过度自信和泛化性差的问题,难以适应不断变化的教学内容和评分标准。
  2. CHiL(L)Grader通过置信度校准、选择性预测和持续学习,构建人工参与的评分流程,仅自动处理高置信度样本,降低风险。
  3. 实验表明,CHiL(L)Grader能以专家水平自动评分35-65%的答案,且置信度高的预测结果质量显著高于置信度低的。

📝 摘要(中文)

为了利用大型语言模型扩展教育评估,不仅需要准确性,还需要识别预测何时可信的能力。指令调优模型往往过于自信,并且其可靠性随着课程的演进而降低,这使得完全自主的部署在高风险环境中不安全。我们介绍了CHiL(L)Grader,这是第一个将校准置信度估计纳入人工参与工作流程的自动评分框架。通过使用事后温度缩放、基于置信度的选择性预测和持续学习,CHiL(L)Grader仅自动评分高置信度的预测,同时将不确定的情况路由给人工评分员,并适应不断变化的评分标准和未见过的问题。在三个短答案评分数据集上,CHiL(L)Grader以专家级质量(QWK >= 0.80)自动评分了35-65%的答案。被接受和被拒绝的预测之间0.347的QWK差距证实了基于置信度路由的有效性。每个修正周期都会加强模型的评分能力,因为它会从教师的反馈中学习。这些结果表明,不确定性量化是可靠的AI辅助评分的关键。

🔬 方法详解

问题定义:论文旨在解决大规模教育评估中,完全依赖大型语言模型自动评分所带来的风险问题。现有方法,特别是指令调优后的模型,往往存在过度自信,无法准确判断自身预测的可靠性,导致在面对新的或复杂的题目时,评分质量下降。此外,评分标准和教学内容的演变也使得模型的泛化能力受到挑战。

核心思路:论文的核心思路是引入人工参与的评分流程,并利用置信度估计来指导自动评分和人工干预的分配。通过校准模型的置信度,系统可以识别出哪些预测是可靠的,哪些需要人工审核。这种方法旨在平衡自动评分的效率和人工评分的准确性,从而提高整体评分质量。

技术框架:CHiL(L)Grader框架包含以下主要模块:1) 基于大型语言模型的自动评分器;2) 置信度估计模块,使用温度缩放进行校准;3) 选择性预测模块,根据置信度阈值决定是否接受自动评分结果;4) 人工审核模块,处理置信度低的样本并提供反馈;5) 持续学习模块,利用人工反馈更新模型。整体流程是:模型首先对答案进行评分,然后估计置信度,如果置信度高于阈值,则接受评分结果,否则将答案路由给人工评分员进行审核,最后利用人工反馈更新模型。

关键创新:该论文的关键创新在于将置信度校准和选择性预测集成到人工参与的自动评分流程中。与传统的完全自动评分方法相比,CHiL(L)Grader能够根据模型的置信度动态地调整自动评分和人工干预的比例,从而在保证评分质量的同时提高效率。此外,持续学习机制使得模型能够不断适应新的评分标准和教学内容。

关键设计:论文使用了温度缩放来校准模型的置信度。温度缩放是一种后处理方法,通过调整softmax输出的温度参数来优化模型的置信度。选择性预测模块使用一个置信度阈值来决定是否接受自动评分结果。阈值的选择需要权衡自动评分的覆盖率和准确性。持续学习模块使用人工反馈来微调大型语言模型,从而提高模型的评分能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CHiL(L)Grader能够以专家级质量(QWK >= 0.80)自动评分35-65%的答案。被接受和被拒绝的预测之间存在0.347的QWK差距,验证了置信度路由的有效性。此外,每个修正周期都能提升模型的评分能力,表明持续学习机制的有效性。

🎯 应用场景

CHiL(L)Grader可应用于大规模在线教育平台、自动化考试系统等场景,显著降低人工评分成本,提高评分效率。通过自适应学习,该系统能有效应对课程内容更新和评分标准变化,保证评分质量。未来,该研究可扩展到其他需要高可靠性AI辅助决策的领域。

📄 摘要(原文)

Scaling educational assessment with large language models requires not just accuracy, but the ability to recognize when predictions are trustworthy. Instruction-tuned models tend to be overconfident, and their reliability deteriorates as curricula evolve, making fully autonomous deployment unsafe in high-stakes settings. We introduce CHiL(L)Grader, the first automated grading framework that incorporates calibrated confidence estimation into a human-in-the-loop workflow. Using post-hoc temperature scaling, confidence-based selective prediction, and continual learning, CHiL(L)Grader automates only high-confidence predictions while routing uncertain cases to human graders, and adapts to evolving rubrics and unseen questions. Across three short-answer grading datasets, CHiL(L)Grader automatically scores 35-65% of responses at expert-level quality (QWK >= 0.80). A QWK gap of 0.347 between accepted and rejected predictions confirms the effectiveness of the confidence-based routing. Each correction cycle strengthens the model's grading capability as it learns from teacher feedback. These results show that uncertainty quantification is key for reliable AI-assisted grading.