Beyond the Score: Uncertainty-Calibrated LLMs for Automated Essay Assessment

作者: Ahmed Karim, Qiao Wang, Zheng Yuan

分类: cs.CL, cs.LG

发布日期: 2025-09-19

备注: Accepted at EMNLP 2025 (Main Conference). Camera-ready version

💡 一句话要点

提出基于不确定性校准的大语言模型，用于提升自动作文评分的可靠性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 不确定性校准 Conformal Prediction 大语言模型 教育评估

📋 核心要点

现有自动作文评分模型缺乏置信度评估，限制了其在高风险场景中的应用。
利用conformal prediction为LLM提供集合值输出，并进行不确定性校准，保证覆盖率。
实验表明，校准后的开源LLM在保持预测准确性的同时，能提供可靠的不确定性估计。

📝 摘要（中文）

自动作文评分(AES)系统在一些公共基准测试中已接近人类水平，但实际应用，尤其是在高风险考试中，仍然有限。一个主要障碍是大多数模型输出单一分数，缺乏置信度衡量或解释。本文利用conformal prediction解决这个问题，这是一种与分布无关的封装器，使任何分类器都能输出集合值，并具有正式的覆盖保证。在三个不同的语料库(ASAP, TOEFL11, Cambridge-FCE)上微调两个开源大语言模型(Llama-3 8B和Qwen-2.5 3B)，并在90%的风险水平下进行校准。使用UAcc评估可靠性，这是一种不确定性感知准确率，奖励既正确又简洁的模型。据我们所知，这是第一项将conformal prediction和UAcc结合用于作文评分的工作。校准后的模型始终满足覆盖目标，同时保持预测集紧凑，表明开源中等规模的LLM已经可以支持教师参与的AES；我们讨论了未来的扩展和更广泛的用户研究。

🔬 方法详解

问题定义：自动作文评分(AES)系统虽然在某些基准测试中表现良好，但缺乏对评分结果的置信度评估。现有方法通常只输出一个单一的分数，没有提供任何关于模型预测不确定性的信息，这使得它们难以在高风险场景中应用，例如重要的考试评分。因此，如何为AES系统提供可靠的不确定性估计是一个关键问题。

核心思路：本文的核心思路是利用conformal prediction框架，为现有的LLM-based AES系统提供一个与分布无关的置信度评估机制。Conformal prediction能够生成集合值的预测，并保证在预设的风险水平下，真实标签包含在预测集合中的概率。通过这种方式，模型不仅输出一个分数，还输出一个置信区间，从而提高了评分结果的可解释性和可靠性。

技术框架：整体框架包括以下几个主要步骤：1) 选择预训练的LLM（如Llama-3 8B和Qwen-2.5 3B）；2) 在作文评分数据集（如ASAP, TOEFL11, Cambridge-FCE）上对LLM进行微调，使其能够预测作文的分数；3) 使用conformal prediction对微调后的LLM进行校准，使其能够输出集合值的预测，并满足预设的覆盖率要求；4) 使用UAcc指标评估校准后的模型的性能，该指标同时考虑了预测的准确性和集合的大小。

关键创新：本文的关键创新在于将conformal prediction应用于自动作文评分任务，并结合UAcc指标进行评估。这是首次尝试为AES系统提供具有正式覆盖保证的不确定性估计，从而提高了评分结果的可靠性和可信度。此外，本文还探索了开源中等规模LLM在这一任务上的潜力，并验证了其在教师辅助评分场景中的可行性。

关键设计：Conformal prediction的具体实现涉及以下关键设计：1) 选择合适的非一致性度量（nonconformity measure），用于衡量每个样本与训练数据的差异程度；2) 根据非一致性度量计算p-value，用于确定预测集合的大小；3) 设置目标覆盖率（如90%），用于控制预测集合的覆盖范围。UAcc指标的设计旨在奖励既准确又简洁的预测，其计算方式为：UAcc = Accuracy - λ * Average Set Size，其中λ是一个超参数，用于平衡准确性和集合大小。

📊 实验亮点

实验结果表明，经过conformal prediction校准后的Llama-3 8B和Qwen-2.5 3B模型，在ASAP、TOEFL11和Cambridge-FCE三个数据集上均能达到90%的覆盖率目标，同时保持预测集合的紧凑性。使用UAcc指标评估，校准后的模型在准确性和集合大小之间取得了良好的平衡，证明了该方法在自动作文评分任务中的有效性。

🎯 应用场景

该研究成果可应用于各种教育场景，例如辅助教师进行作文批改、提供个性化的学习反馈、以及在高风险考试中作为辅助评分工具。通过提供不确定性估计，可以提高自动评分系统的透明度和可信度，从而促进其更广泛的应用。未来的研究可以探索如何将该方法扩展到其他类型的评估任务，例如代码评估和问答系统。

📄 摘要（原文）

Automated Essay Scoring (AES) systems now reach near human agreement on some public benchmarks, yet real-world adoption, especially in high-stakes examinations, remains limited. A principal obstacle is that most models output a single score without any accompanying measure of confidence or explanation. We address this gap with conformal prediction, a distribution-free wrapper that equips any classifier with set-valued outputs and formal coverage guarantees. Two open-source large language models (Llama-3 8B and Qwen-2.5 3B) are fine-tuned on three diverse corpora (ASAP, TOEFL11, Cambridge-FCE) and calibrated at a 90 percent risk level. Reliability is assessed with UAcc, an uncertainty-aware accuracy that rewards models for being both correct and concise. To our knowledge, this is the first work to combine conformal prediction and UAcc for essay scoring. The calibrated models consistently meet the coverage target while keeping prediction sets compact, indicating that open-source, mid-sized LLMs can already support teacher-in-the-loop AES; we discuss scaling and broader user studies as future work.

Beyond the Score: Uncertainty-Calibrated LLMs for Automated Essay Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理