"I understand why I got this grade": Automatic Short Answer Grading with Feedback

作者: Dishank Aggarwal, Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-06-30 (更新: 2025-06-23)

💡 一句话要点

提出EngSAF数据集和LASFG策略，用于自动短答案评分与反馈生成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动评分 简答题 反馈生成 大型语言模型 教育评估

📋 核心要点

人工评分简答题并提供反馈耗时费力，缺乏大规模的自动评分与反馈数据集是主要挑战。
提出Label-Aware Synthetic Feedback Generation (LASFG)策略，利用LLM生成高质量的反馈，构建EngSAF数据集。
在EngSAF数据集上，Mistral-7B模型取得了最佳效果，并在真实期末考试中成功部署，验证了系统的有效性。

📝 摘要（中文）

近年来，使用人工智能（AI）自动化教育中的学生评估越来越受到关注。在不同类型的评估中，总结性评估在评估学生对课程的理解水平方面起着至关重要的作用。此类考试通常涉及简答题。然而，大规模地手动评分这些答案并提供有意义的反馈既耗时又费力。反馈尤其重要，因为它有助于学生认识到自己的优势和需要改进的领域。尽管这项任务很重要，但非常缺乏支持自动短答案评分和反馈生成的公开数据集。为了解决这一差距，我们引入了工程简答反馈（EngSAF），这是一个专为自动短答案评分和反馈而设计的数据集。该数据集涵盖了来自多个工程领域的各种主题、问题和答案模式，包含约5.8k个数据点。我们利用最先进的大型语言模型（LLM）的生成能力，使用我们的标签感知合成反馈生成（LASFG）策略，将反馈纳入我们的数据集。本文强调了在实际教育环境中加强反馈的重要性，概述了数据集注释和反馈生成过程，对EngSAF进行了全面分析，并为未来的比较提供了不同的基于LLM的零样本和微调基线。性能最佳的模型（Mistral-7B）在未见答案和未见问题测试集上分别实现了75.4%和58.7%的总体准确率。此外，我们通过在著名研究所的真实期末考试中部署ASAG系统，证明了其效率和有效性。

🔬 方法详解

问题定义：论文旨在解决自动简答题评分（ASAG）问题，并提供有意义的反馈。现有方法主要痛点在于缺乏高质量的、带有反馈信息的大规模数据集，导致模型难以学习有效的评分和反馈策略。人工标注反馈成本高昂，难以扩展。

核心思路：论文的核心思路是利用大型语言模型（LLM）的生成能力，自动合成高质量的反馈信息，从而构建一个大规模的、带有反馈信息的简答题数据集。通过在合成数据集上训练模型，可以提高ASAG系统的评分准确率和反馈质量。

技术框架：整体框架包括数据收集、反馈生成和模型训练三个主要阶段。首先，收集工程领域的简答题和对应的参考答案。然后，利用LASFG策略，基于LLM生成针对不同答案的反馈信息。最后，在生成的EngSAF数据集上训练ASAG模型，用于自动评分和反馈生成。

关键创新：论文的关键创新在于提出了Label-Aware Synthetic Feedback Generation (LASFG)策略。该策略利用LLM的生成能力，并结合答案的标签信息（如正确、错误、部分正确），生成更具针对性和指导性的反馈。与直接使用LLM生成反馈相比，LASFG策略能够生成更高质量的反馈信息。

关键设计：LASFG策略的关键设计在于prompt的设计，prompt中包含了问题、参考答案、学生答案以及答案的标签信息。通过精心设计的prompt，引导LLM生成与标签信息一致的反馈。论文使用了Mistral-7B作为基础LLM，并进行了微调。损失函数使用了交叉熵损失函数，用于优化评分模型的性能。数据集包含约5.8k个数据点，涵盖多个工程领域。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在EngSAF数据集上，经过微调的Mistral-7B模型在未见答案和未见问题测试集上分别取得了75.4%和58.7%的总体准确率。此外，该ASAG系统已成功部署在真实期末考试中，验证了其在实际应用中的有效性。相较于其他基线模型，该方法在评分准确率和反馈质量方面均有显著提升。

🎯 应用场景

该研究成果可应用于在线教育平台、智能辅导系统等领域，实现大规模的自动简答题评分与反馈。通过自动提供个性化反馈，可以帮助学生更好地理解知识点，提高学习效率。此外，该技术还可以减轻教师的评分负担，提高教学效率，尤其是在大规模在线课程中具有重要意义。

📄 摘要（原文）

In recent years, there has been a growing interest in using Artificial Intelligence (AI) to automate student assessment in education. Among different types of assessments, summative assessments play a crucial role in evaluating a student's understanding level of a course. Such examinations often involve short-answer questions. However, grading these responses and providing meaningful feedback manually at scale is both time-consuming and labor-intensive. Feedback is particularly important, as it helps students recognize their strengths and areas for improvement. Despite the importance of this task, there is a significant lack of publicly available datasets that support automatic short-answer grading with feedback generation. To address this gap, we introduce Engineering Short Answer Feedback (EngSAF), a dataset designed for automatic short-answer grading with feedback. The dataset covers a diverse range of subjects, questions, and answer patterns from multiple engineering domains and contains ~5.8k data points. We incorporate feedback into our dataset by leveraging the generative capabilities of state-of-the-art large language models (LLMs) using our Label-Aware Synthetic Feedback Generation (LASFG) strategy. This paper underscores the importance of enhanced feedback in practical educational settings, outlines dataset annotation and feedback generation processes, conducts a thorough EngSAF analysis, and provides different LLMs-based zero-shot and finetuned baselines for future comparison. The best-performing model (Mistral-7B) achieves an overall accuracy of 75.4% and 58.7% on unseen answers and unseen question test sets, respectively. Additionally, we demonstrate the efficiency and effectiveness of our ASAG system through its deployment in a real-world end-semester exam at a reputed institute.

"I understand why I got this grade": Automatic Short Answer Grading with Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理