When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment
作者: Robinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar
分类: cs.CL, cs.CY
发布日期: 2026-03-31
🔗 代码/项目: GITHUB
💡 一句话要点
提出校准置信度方法,提升LLM自动评分可靠性,实现选择性自动化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动评分 置信度校准 选择性自动化 教育评估
📋 核心要点
- 现有LLM评分器输出结果的可靠性不足,难以直接应用于自动化评分场景。
- 通过预测LLM评分器何时可能正确,实现高置信度结果的自动处理,降低人工审核成本。
- 实验表明,自我报告置信度方法在校准方面表现最佳,且大型模型具有更好的校准效果。
📝 摘要(中文)
大型语言模型(LLMs)在自动评分方面展现出潜力,但其输出可能不可靠。本文并非直接提高评分准确率,而是解决一个互补问题:预测LLM评分器何时可能正确。这使得选择性自动化成为可能,即自动处理高置信度的预测,同时标记不确定的情况以供人工审核。我们在七个不同规模(4B到120B参数)的LLM上,比较了三种置信度估计方法(自我报告置信度、自洽性投票和token概率),使用了三个教育数据集:RiceChem(长答案化学)、SciEntsBank和Beetle(短答案科学)。实验表明,自我报告置信度在所有条件下始终实现最佳校准(平均ECE为0.166,而自洽性为0.229)。令人惊讶的是,尽管需要5倍的推理成本,但自洽性仍然差38%。较大的模型表现出明显更好的校准,但增益因数据集和方法而异(例如,自我报告的ECE降低了28%),其中GPT-OSS-120B实现了最佳校准(平均ECE为0.100)和强大的区分度(平均AUC为0.668)。我们还观察到,所有方法的置信度都强烈地向顶部倾斜,从而产生了一个从业者在设置阈值时必须考虑的“置信度下限”。这些发现表明,简单地要求LLM报告其置信度,为识别可靠的评分预测提供了一种实用的方法。
🔬 方法详解
问题定义:论文旨在解决LLM自动评分结果的不可靠性问题。现有方法主要集中在提高评分准确率上,但忽略了对评分结果置信度的评估,导致无法区分可靠和不可靠的评分,限制了LLM在自动化评分中的应用。现有方法缺乏对LLM评分置信度的有效评估和校准机制。
核心思路:论文的核心思路是通过估计LLM评分的置信度,从而判断何时可以信任LLM的评分结果。通过置信度估计,可以实现选择性自动化,即自动处理高置信度的评分,而将低置信度的评分交给人工审核。这种方法可以在保证评分质量的前提下,降低人工成本。
技术框架:论文的技术框架主要包括三个部分:LLM评分器、置信度估计方法和校准评估。首先,使用不同的LLM(参数规模从4B到120B)对教育数据集进行评分。然后,使用三种置信度估计方法(自我报告置信度、自洽性投票和token概率)对评分结果的置信度进行评估。最后,使用ECE(Expected Calibration Error)和AUC(Area Under the Curve)等指标对置信度估计的校准效果进行评估。
关键创新:论文的关键创新在于提出了通过校准LLM评分置信度来实现选择性自动化的思想。与以往专注于提高评分准确率的方法不同,本文关注的是如何判断LLM评分结果的可靠性。此外,论文还比较了三种不同的置信度估计方法,并发现自我报告置信度方法在校准方面表现最佳。
关键设计:论文的关键设计包括:1) 使用了不同规模的LLM,以评估模型规模对置信度校准的影响;2) 采用了三种不同的置信度估计方法,以比较不同方法的性能;3) 使用了多个教育数据集,以评估方法在不同领域的泛化能力;4) 使用ECE和AUC等指标对置信度估计的校准效果进行评估,并分析了置信度的分布情况。
🖼️ 关键图片
📊 实验亮点
实验结果表明,自我报告置信度方法在所有条件下均表现出最佳的校准效果(平均ECE为0.166),优于自洽性投票(平均ECE为0.229)。尽管自洽性投票需要5倍的推理成本,但其校准效果仍然较差(差38%)。更大的模型表现出更好的校准效果,其中GPT-OSS-120B实现了最佳校准(平均ECE为0.100)和强大的区分度(平均AUC为0.668)。
🎯 应用场景
该研究成果可应用于在线教育、自动阅卷、作业批改等领域,通过自动处理高置信度的评分,减少人工干预,提高效率。同时,该方法可以帮助教师识别LLM评分中存在的偏差和错误,从而更好地利用LLM辅助教学。未来,该研究可以扩展到其他自然语言处理任务,如文本摘要、机器翻译等。
📄 摘要(原文)
Large Language Models (LLMs) show promise for automated grading, but their outputs can be unreliable. Rather than improving grading accuracy directly, we address a complementary problem: \textit{predicting when an LLM grader is likely to be correct}. This enables selective automation where high-confidence predictions are processed automatically while uncertain cases are flagged for human review. We compare three confidence estimation methods (self-reported confidence, self-consistency voting, and token probability) across seven LLMs of varying scale (4B to 120B parameters) on three educational datasets: RiceChem (long-answer chemistry), SciEntsBank, and Beetle (short-answer science). Our experiments reveal that self-reported confidence consistently achieves the best calibration across all conditions (avg ECE 0.166 vs 0.229 for self-consistency). Surprisingly, self-consistency remains 38\% worse despite requiring 5$\times$ the inference cost. Larger models exhibit substantially better calibration though gains vary by dataset and method (e.g., a 28\% ECE reduction for self-reported), with GPT-OSS-120B achieving the best calibration (avg ECE 0.100) and strong discrimination (avg AUC 0.668). We also observe that confidence is strongly top-skewed across methods, creating a ``confidence floor'' that practitioners must account for when setting thresholds. These findings suggest that simply asking LLMs to report their confidence provides a practical approach for identifying reliable grading predictions. Code is available \href{https://github.com/sonkar-lab/llm_grading_calibration}{here}.