Confidence Estimation in Automatic Short Answer Grading with LLMs

📄 arXiv: 2605.00200v1 📥 PDF

作者: Longwei Cong, Sonja Hahn, Sebastian Gombert, Leon Camus, Hendrik Drachsler, Ulf Kroehne

分类: cs.CL

发布日期: 2026-04-30

期刊: AIED2026 International Conference on Artificial Intelligence in Education


💡 一句话要点

提出混合置信度框架,提升LLM在自动短答案评分中的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动短答案评分 大型语言模型 置信度估计 不确定性量化 人机协作

📋 核心要点

  1. 现有基于LLM的ASAG方法缺乏可靠的置信度估计,限制了人机协作的有效性,难以保证评分质量。
  2. 提出一种混合置信度框架,结合模型置信度信号和数据集导出的偶然不确定性,更准确地评估评分可靠性。
  3. 实验表明,该混合方法能产生更可靠的置信度估计,并提升选择性评分性能,优于单一来源的置信度评估方法。

📝 摘要(中文)

本文研究了基于大型语言模型(LLM)的自动短答案评分(ASAG)中的置信度估计问题。尽管LLM在ASAG中表现出强大的性能,但其评分并非完美,因此可靠的置信度估计对于人机协作至关重要。本文联合考虑了基于模型的置信度信号和数据集导出的不确定性,系统地比较了三种基于模型的置信度估计策略,包括口头化、潜在和基于一致性的置信度估计。研究表明,仅基于模型的置信度不足以可靠地捕捉ASAG中的不确定性。为此,本文提出了一种混合置信度框架,将基于模型的置信度信号与数据集导出的偶然不确定性的显式估计相结合。偶然不确定性通过聚类语义嵌入的学生答案并量化簇内异质性来操作化。结果表明,与单源方法相比,所提出的混合置信度度量产生更可靠的置信度估计,并提高了选择性评分性能。总体而言,这项工作推进了用于人机协作评估的置信度感知LLM评分,支持更值得信赖的AI辅助教育评估系统。

🔬 方法详解

问题定义:论文旨在解决自动短答案评分(ASAG)中,利用大型语言模型(LLM)进行评分时,缺乏可靠置信度估计的问题。现有方法主要依赖模型自身的置信度输出,但这些置信度往往与实际评分的准确性不匹配,导致人机协作效率低下,难以信任AI的评分结果。因此,如何准确评估LLM评分的置信度,是提升ASAG系统实用性的关键挑战。

核心思路:论文的核心思路是将模型自身的置信度信号与从数据集中提取的不确定性信息相结合,构建一个混合置信度评估框架。模型置信度反映了模型对自身预测的把握程度,而数据集不确定性则反映了数据本身的模糊性和多样性。通过融合这两种信息来源,可以更全面、更准确地评估LLM评分的可靠性。

技术框架:该混合置信度框架包含以下几个主要模块:1) 基于模型的置信度估计模块:采用三种策略(口头化、潜在和基于一致性)评估LLM的置信度;2) 数据集不确定性估计模块:通过聚类学生答案的语义嵌入,并量化簇内异质性来估计偶然不确定性;3) 混合置信度融合模块:将模型置信度信号和数据集不确定性估计进行融合,得到最终的置信度评分。整体流程是,首先利用LLM对学生答案进行评分,并利用三种策略评估模型置信度。然后,对学生答案进行语义嵌入,并进行聚类分析,计算簇内异质性作为数据集不确定性的度量。最后,将模型置信度和数据集不确定性进行融合,得到最终的置信度评分。

关键创新:该论文的关键创新在于提出了将模型置信度与数据集不确定性相结合的混合置信度评估框架。与现有方法仅依赖模型自身置信度不同,该框架考虑了数据本身的特性,能够更准确地捕捉ASAG中的不确定性。此外,论文还系统地比较了三种不同的模型置信度估计策略,并提出了利用聚类分析量化数据集不确定性的方法。

关键设计:在模型置信度估计方面,论文比较了口头化(verbalizing)、潜在(latent)和基于一致性(consistency-based)三种方法。在数据集不确定性估计方面,论文使用Sentence-BERT进行语义嵌入,并采用K-means算法进行聚类。簇内异质性通过计算簇内样本之间的平均距离来量化。混合置信度融合的具体方式未知,但推测可能采用加权平均或更复杂的融合策略。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,所提出的混合置信度度量方法能够显著提高置信度估计的准确性,并提升选择性评分的性能。与仅使用模型置信度的方法相比,该混合方法能够更有效地识别出评分错误的答案,从而减少人工干预的需求。具体的性能提升数据未知,但论文强调了该方法在提高评分可靠性方面的优势。

🎯 应用场景

该研究成果可应用于各种教育场景,例如在线课程、自动评分系统和个性化学习平台。通过提供可靠的置信度估计,可以辅助教师进行选择性评分,提高评分效率,并为学生提供更准确的反馈。此外,该方法还可以用于评估LLM在其他教育任务中的可靠性,例如自动生成练习题和提供学习建议。

📄 摘要(原文)

Automatic Short Answer Grading (ASAG) with generative large language models (LLMs) has recently demonstrated strong performance without task-specific fine-tuning, while also enabling the generation of synthetic feedback for educational assessment. Despite these advances, LLM-based grading remains imperfect, making reliable confidence estimates essential for safe and effective human-AI collaboration in educational decision-making. In this work, we investigate confidence estimation for ASAG with LLMs by jointly considering model-based confidence signals and dataset-derived uncertainty. We systematically compare three model-based confidence estimation strategies, namely verbalizing, latent, and consistency-based confidence estimation, and show that model-based confidence alone is insufficient to reliably capture uncertainty in ASAG. To address this limitation, we propose a hybrid confidence framework that integrates model-based confidence signals with an explicit estimate of dataset-derived aleatoric uncertainty. Aleatoric uncertainty is operationalized by clustering semantically embedded student responses and quantifying within-cluster heterogeneity. Our results demonstrate that the proposed hybrid confidence measure yields more reliable confidence estimates and improves selective grading performance compared to single-source approaches. Overall, this work advances confidence-aware LLM-based grading for human-in-the-loop assessment, supporting more trustworthy AI-assisted educational assessment systems.