"I understand why I got this grade": Automatic Short Answer Grading with Feedback

📄 arXiv: 2407.12818v2 📥 PDF

作者: Dishank Aggarwal, Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-06-30 (更新: 2025-06-23)


💡 一句话要点

提出EngSAF数据集和LASFG策略,用于自动短答案评分与反馈生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动评分 简答题 反馈生成 大型语言模型 教育评估

📋 核心要点

  1. 人工评分简答题并提供反馈耗时费力,缺乏大规模的自动评分与反馈数据集是主要挑战。
  2. 提出Label-Aware Synthetic Feedback Generation (LASFG)策略,利用LLM生成高质量的反馈,构建EngSAF数据集。
  3. 在EngSAF数据集上,Mistral-7B模型取得了最佳效果,并在真实期末考试中成功部署,验证了系统的有效性。

📝 摘要(中文)

近年来,使用人工智能(AI)自动化教育中的学生评估越来越受到关注。在不同类型的评估中,总结性评估在评估学生对课程的理解水平方面起着至关重要的作用。此类考试通常涉及简答题。然而,大规模地手动评分这些答案并提供有意义的反馈既耗时又费力。反馈尤其重要,因为它有助于学生认识到自己的优势和需要改进的领域。尽管这项任务很重要,但非常缺乏支持自动短答案评分和反馈生成的公开数据集。为了解决这一差距,我们引入了工程简答反馈(EngSAF),这是一个专为自动短答案评分和反馈而设计的数据集。该数据集涵盖了来自多个工程领域的各种主题、问题和答案模式,包含约5.8k个数据点。我们利用最先进的大型语言模型(LLM)的生成能力,使用我们的标签感知合成反馈生成(LASFG)策略,将反馈纳入我们的数据集。本文强调了在实际教育环境中加强反馈的重要性,概述了数据集注释和反馈生成过程,对EngSAF进行了全面分析,并为未来的比较提供了不同的基于LLM的零样本和微调基线。性能最佳的模型(Mistral-7B)在未见答案和未见问题测试集上分别实现了75.4%和58.7%的总体准确率。此外,我们通过在著名研究所的真实期末考试中部署ASAG系统,证明了其效率和有效性。

🔬 方法详解

问题定义:论文旨在解决自动简答题评分(ASAG)问题,并提供有意义的反馈。现有方法主要痛点在于缺乏高质量的、带有反馈信息的大规模数据集,导致模型难以学习有效的评分和反馈策略。人工标注反馈成本高昂,难以扩展。

核心思路:论文的核心思路是利用大型语言模型(LLM)的生成能力,自动合成高质量的反馈信息,从而构建一个大规模的、带有反馈信息的简答题数据集。通过在合成数据集上训练模型,可以提高ASAG系统的评分准确率和反馈质量。

技术框架:整体框架包括数据收集、反馈生成和模型训练三个主要阶段。首先,收集工程领域的简答题和对应的参考答案。然后,利用LASFG策略,基于LLM生成针对不同答案的反馈信息。最后,在生成的EngSAF数据集上训练ASAG模型,用于自动评分和反馈生成。

关键创新:论文的关键创新在于提出了Label-Aware Synthetic Feedback Generation (LASFG)策略。该策略利用LLM的生成能力,并结合答案的标签信息(如正确、错误、部分正确),生成更具针对性和指导性的反馈。与直接使用LLM生成反馈相比,LASFG策略能够生成更高质量的反馈信息。

关键设计:LASFG策略的关键设计在于prompt的设计,prompt中包含了问题、参考答案、学生答案以及答案的标签信息。通过精心设计的prompt,引导LLM生成与标签信息一致的反馈。论文使用了Mistral-7B作为基础LLM,并进行了微调。损失函数使用了交叉熵损失函数,用于优化评分模型的性能。数据集包含约5.8k个数据点,涵盖多个工程领域。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在EngSAF数据集上,经过微调的Mistral-7B模型在未见答案和未见问题测试集上分别取得了75.4%和58.7%的总体准确率。此外,该ASAG系统已成功部署在真实期末考试中,验证了其在实际应用中的有效性。相较于其他基线模型,该方法在评分准确率和反馈质量方面均有显著提升。

🎯 应用场景

该研究成果可应用于在线教育平台、智能辅导系统等领域,实现大规模的自动简答题评分与反馈。通过自动提供个性化反馈,可以帮助学生更好地理解知识点,提高学习效率。此外,该技术还可以减轻教师的评分负担,提高教学效率,尤其是在大规模在线课程中具有重要意义。

📄 摘要(原文)

In recent years, there has been a growing interest in using Artificial Intelligence (AI) to automate student assessment in education. Among different types of assessments, summative assessments play a crucial role in evaluating a student's understanding level of a course. Such examinations often involve short-answer questions. However, grading these responses and providing meaningful feedback manually at scale is both time-consuming and labor-intensive. Feedback is particularly important, as it helps students recognize their strengths and areas for improvement. Despite the importance of this task, there is a significant lack of publicly available datasets that support automatic short-answer grading with feedback generation. To address this gap, we introduce Engineering Short Answer Feedback (EngSAF), a dataset designed for automatic short-answer grading with feedback. The dataset covers a diverse range of subjects, questions, and answer patterns from multiple engineering domains and contains ~5.8k data points. We incorporate feedback into our dataset by leveraging the generative capabilities of state-of-the-art large language models (LLMs) using our Label-Aware Synthetic Feedback Generation (LASFG) strategy. This paper underscores the importance of enhanced feedback in practical educational settings, outlines dataset annotation and feedback generation processes, conducts a thorough EngSAF analysis, and provides different LLMs-based zero-shot and finetuned baselines for future comparison. The best-performing model (Mistral-7B) achieves an overall accuracy of 75.4% and 58.7% on unseen answers and unseen question test sets, respectively. Additionally, we demonstrate the efficiency and effectiveness of our ASAG system through its deployment in a real-world end-semester exam at a reputed institute.