When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment

作者: Robinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar

分类: cs.CL, cs.CY

发布日期: 2026-03-31

🔗 代码/项目: GITHUB

💡 一句话要点

提出校准置信度方法，提升LLM自动评分可靠性，实现选择性自动化。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评分 置信度校准 选择性自动化 教育评估

📋 核心要点

现有LLM评分器输出结果的可靠性不足，难以直接应用于自动化评分场景。
通过预测LLM评分器何时可能正确，实现高置信度结果的自动处理，降低人工审核成本。
实验表明，自我报告置信度方法在校准方面表现最佳，且大型模型具有更好的校准效果。

📝 摘要（中文）

大型语言模型(LLMs)在自动评分方面展现出潜力，但其输出可能不可靠。本文并非直接提高评分准确率，而是解决一个互补问题：预测LLM评分器何时可能正确。这使得选择性自动化成为可能，即自动处理高置信度的预测，同时标记不确定的情况以供人工审核。我们在七个不同规模（4B到120B参数）的LLM上，比较了三种置信度估计方法（自我报告置信度、自洽性投票和token概率），使用了三个教育数据集：RiceChem（长答案化学）、SciEntsBank和Beetle（短答案科学）。实验表明，自我报告置信度在所有条件下始终实现最佳校准（平均ECE为0.166，而自洽性为0.229）。令人惊讶的是，尽管需要5倍的推理成本，但自洽性仍然差38％。较大的模型表现出明显更好的校准，但增益因数据集和方法而异（例如，自我报告的ECE降低了28％），其中GPT-OSS-120B实现了最佳校准（平均ECE为0.100）和强大的区分度（平均AUC为0.668）。我们还观察到，所有方法的置信度都强烈地向顶部倾斜，从而产生了一个从业者在设置阈值时必须考虑的“置信度下限”。这些发现表明，简单地要求LLM报告其置信度，为识别可靠的评分预测提供了一种实用的方法。

🔬 方法详解

问题定义：论文旨在解决LLM自动评分结果的不可靠性问题。现有方法主要集中在提高评分准确率上，但忽略了对评分结果置信度的评估，导致无法区分可靠和不可靠的评分，限制了LLM在自动化评分中的应用。现有方法缺乏对LLM评分置信度的有效评估和校准机制。

核心思路：论文的核心思路是通过估计LLM评分的置信度，从而判断何时可以信任LLM的评分结果。通过置信度估计，可以实现选择性自动化，即自动处理高置信度的评分，而将低置信度的评分交给人工审核。这种方法可以在保证评分质量的前提下，降低人工成本。

技术框架：论文的技术框架主要包括三个部分：LLM评分器、置信度估计方法和校准评估。首先，使用不同的LLM（参数规模从4B到120B）对教育数据集进行评分。然后，使用三种置信度估计方法（自我报告置信度、自洽性投票和token概率）对评分结果的置信度进行评估。最后，使用ECE（Expected Calibration Error）和AUC（Area Under the Curve）等指标对置信度估计的校准效果进行评估。

关键创新：论文的关键创新在于提出了通过校准LLM评分置信度来实现选择性自动化的思想。与以往专注于提高评分准确率的方法不同，本文关注的是如何判断LLM评分结果的可靠性。此外，论文还比较了三种不同的置信度估计方法，并发现自我报告置信度方法在校准方面表现最佳。

关键设计：论文的关键设计包括：1) 使用了不同规模的LLM，以评估模型规模对置信度校准的影响；2) 采用了三种不同的置信度估计方法，以比较不同方法的性能；3) 使用了多个教育数据集，以评估方法在不同领域的泛化能力；4) 使用ECE和AUC等指标对置信度估计的校准效果进行评估，并分析了置信度的分布情况。

🖼️ 关键图片

📊 实验亮点

实验结果表明，自我报告置信度方法在所有条件下均表现出最佳的校准效果（平均ECE为0.166），优于自洽性投票（平均ECE为0.229）。尽管自洽性投票需要5倍的推理成本，但其校准效果仍然较差（差38%）。更大的模型表现出更好的校准效果，其中GPT-OSS-120B实现了最佳校准（平均ECE为0.100）和强大的区分度（平均AUC为0.668）。

🎯 应用场景

该研究成果可应用于在线教育、自动阅卷、作业批改等领域，通过自动处理高置信度的评分，减少人工干预，提高效率。同时，该方法可以帮助教师识别LLM评分中存在的偏差和错误，从而更好地利用LLM辅助教学。未来，该研究可以扩展到其他自然语言处理任务，如文本摘要、机器翻译等。

📄 摘要（原文）

Large Language Models (LLMs) show promise for automated grading, but their outputs can be unreliable. Rather than improving grading accuracy directly, we address a complementary problem: \textit{predicting when an LLM grader is likely to be correct}. This enables selective automation where high-confidence predictions are processed automatically while uncertain cases are flagged for human review. We compare three confidence estimation methods (self-reported confidence, self-consistency voting, and token probability) across seven LLMs of varying scale (4B to 120B parameters) on three educational datasets: RiceChem (long-answer chemistry), SciEntsBank, and Beetle (short-answer science). Our experiments reveal that self-reported confidence consistently achieves the best calibration across all conditions (avg ECE 0.166 vs 0.229 for self-consistency). Surprisingly, self-consistency remains 38\% worse despite requiring 5$\times$ the inference cost. Larger models exhibit substantially better calibration though gains vary by dataset and method (e.g., a 28\% ECE reduction for self-reported), with GPT-OSS-120B achieving the best calibration (avg ECE 0.100) and strong discrimination (avg AUC 0.668). We also observe that confidence is strongly top-skewed across methods, creating a ``confidence floor'' that practitioners must account for when setting thresholds. These findings suggest that simply asking LLMs to report their confidence provides a practical approach for identifying reliable grading predictions. Code is available \href{https://github.com/sonkar-lab/llm_grading_calibration}{here}.

When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理