Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy
作者: Owen Henkel, Hannah Horne-Robinson, Maria Dyshel, Nabil Ch, Baptiste Moreau-Pernet, Ralph Abood
分类: cs.AI
发布日期: 2024-09-26
💡 一句话要点
提出AMMORE数据集,并利用CoT提示提升LLM在数学形成性评估中边缘案例的评分准确率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学教育 形成性评估 大型语言模型 思维链提示 边缘案例 贝叶斯知识追踪
📋 核心要点
- 现有基于规则的分类器在数学形成性评估中,难以准确评估边缘案例,导致学生掌握程度评估出现偏差。
- 利用大型语言模型(LLM)和思维链(Chain-of-Thought, CoT)提示,提升LLM在复杂数学问题评分中的准确性。
- 实验表明,CoT提示能显著提高边缘案例的评分准确率,并降低贝叶斯知识追踪模型对学生掌握程度的误判率。
📝 摘要(中文)
本文介绍了一个新的数据集AMMORE,它包含来自Rori平台的53000个数学开放式问题-答案对。Rori是一个被非洲多个国家的学生使用的学习平台。本文进行了两个实验,以评估大型语言模型(LLM)在评分特别具有挑战性的学生答案方面的应用。AMMORE数据集为各种潜在的分析提供了可能,并为研究在未被充分研究的真实教育环境中学生数学知识的获取提供了一个重要的资源。在实验1中,我们使用各种LLM驱动的方法,包括零样本、少样本和思维链提示,来评分那些基于规则的分类器无法准确评分的1%的学生答案。我们发现,性能最佳的方法——思维链提示——准确地评分了这些边缘案例中的92%,有效地将评分的总体准确率从98.7%提高到99.9%。在实验2中,我们旨在通过将最佳LLM方法生成的成绩传递给贝叶斯知识追踪(BKT)模型,来更好地理解改进评分准确性的结果有效性,该模型估计了学生对特定课程的掌握程度。我们发现,在单个问题层面上模型准确性的相对适度提高,可能会导致学生掌握程度估计的显著变化。在使用基于规则的分类器对学生答案进行评分时,该分类器错误分类了6.9%的学生在已完成课程中的掌握状态,而使用LLM思维链方法,该错误分类率降低到2.6%。总而言之,这些发现表明,LLM可能是评分K-12数学教育中开放式问题的一个有价值的工具,有可能鼓励在形成性评估中更广泛地采用开放式问题。
🔬 方法详解
问题定义:论文旨在解决数学形成性评估中,现有基于规则的分类器难以准确评估学生答案边缘案例的问题。这些边缘案例通常是由于学生使用了非标准解法、表达方式不清晰或存在细微错误等原因造成的。现有方法的痛点在于,规则难以覆盖所有可能的答案形式,导致评分准确率受限,进而影响对学生知识掌握程度的评估。
核心思路:论文的核心解决思路是利用大型语言模型(LLM)的强大理解和推理能力,结合思维链(CoT)提示,使LLM能够像人类教师一样,逐步分析学生的解题过程,从而更准确地判断答案的正确性。CoT提示通过引导LLM逐步思考,模拟了人类的推理过程,使其能够更好地理解学生的解题思路,并识别出潜在的错误。
技术框架:整体流程包括以下几个阶段:1) 数据集构建:构建包含53000个数学开放式问题-答案对的AMMORE数据集。2) 边缘案例识别:使用基于规则的分类器对学生答案进行初步评分,并将评分不准确的1%的答案作为边缘案例。3) LLM评分:使用零样本、少样本和CoT提示等方法,利用LLM对边缘案例进行评分。4) 贝叶斯知识追踪(BKT):将LLM评分结果输入BKT模型,评估其对学生知识掌握程度的影响。
关键创新:最重要的技术创新点在于将CoT提示应用于数学形成性评估中的边缘案例评分。与传统的零样本或少样本方法相比,CoT提示能够显著提高LLM的评分准确率,因为它能够引导LLM逐步分析学生的解题过程,从而更准确地判断答案的正确性。
关键设计:在CoT提示的设计中,论文采用了人工设计的提示语,引导LLM逐步思考学生的解题过程。例如,提示语可能包括“首先,学生尝试了什么?”、“学生使用了哪个公式?”、“学生的计算是否正确?”等。此外,论文还使用了GPT-3等大型语言模型,并对其进行了微调,以提高其在数学问题评分方面的性能。
📊 实验亮点
实验结果表明,使用CoT提示的LLM能够准确评分92%的边缘案例,将整体评分准确率从98.7%提高到99.9%。此外,使用LLM评分后,贝叶斯知识追踪模型对学生掌握状态的误判率从6.9%降低到2.6%,表明LLM评分能够更准确地评估学生的知识掌握程度。
🎯 应用场景
该研究成果可应用于K-12数学教育领域,提升在线学习平台和智能辅导系统的评估准确性。通过更准确地评估学生的知识掌握程度,可以为学生提供个性化的学习建议和反馈,从而提高学习效果。此外,该方法还可以推广到其他学科的开放式问题评分,具有广泛的应用前景。
📄 摘要(原文)
This paper introduces AMMORE, a new dataset of 53,000 math open-response question-answer pairs from Rori, a learning platform used by students in several African countries and conducts two experiments to evaluate the use of large language models (LLM) for grading particularly challenging student answers. The AMMORE dataset enables various potential analyses and provides an important resource for researching student math acquisition in understudied, real-world, educational contexts. In experiment 1 we use a variety of LLM-driven approaches, including zero-shot, few-shot, and chain-of-thought prompting, to grade the 1% of student answers that a rule-based classifier fails to grade accurately. We find that the best-performing approach -- chain-of-thought prompting -- accurately scored 92% of these edge cases, effectively boosting the overall accuracy of the grading from 98.7% to 99.9%. In experiment 2, we aim to better understand the consequential validity of the improved grading accuracy, by passing grades generated by the best-performing LLM-based approach to a Bayesian Knowledge Tracing (BKT) model, which estimated student mastery of specific lessons. We find that relatively modest improvements in model accuracy at the individual question level can lead to significant changes in the estimation of student mastery. Where the rules-based classifier currently used to grade student, answers misclassified the mastery status of 6.9% of students across their completed lessons, using the LLM chain-of-thought approach this misclassification rate was reduced to 2.6% of students. Taken together, these findings suggest that LLMs could be a valuable tool for grading open-response questions in K-12 mathematics education, potentially enabling encouraging wider adoption of open-ended questions in formative assessment.