Can Large Language Models Replicate ITS Feedback on Open-Ended Math Questions?

📄 arXiv: 2405.06414v2 📥 PDF

作者: Hunter McNichols, Jaewook Lee, Stephen Fancsali, Steve Ritter, Andrew Lan

分类: cs.CL

发布日期: 2024-05-10 (更新: 2024-07-08)

备注: Educational Data Mining 2024


💡 一句话要点

利用大语言模型复现智能辅导系统对开放式数学题的反馈

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 智能辅导系统 开放式数学题 自动反馈生成 文本相似性

📋 核心要点

  1. 现有的智能辅导系统依赖于人工设计的模板进行反馈,难以覆盖开放式数学题中大量的错误类型。
  2. 该论文探索了使用大型语言模型(LLM)模仿智能辅导系统,为开放式数学题生成反馈的可行性。
  3. 实验表明,LLM可以学习反馈的格式,但泛化能力有限,难以处理未见过的学生错误。

📝 摘要(中文)

智能辅导系统(ITS)通常包含自动反馈组件,该组件在检测到预定义错误时向学生提供预定义的反馈消息。这种反馈组件通常采用基于模板的方法。这些方法需要人类专家付出大量努力来检测有限数量的可能学生错误并提供相应的反馈。开放式数学问题就是一个例子,其中可能存在大量不同的错误。在这项工作中,我们研究了大型语言模型(LLM)为开放式数学问题生成反馈的能力,类似于使用基于模板方法的已建立的ITS。我们针对真实的学生回答和相应的ITS提供的反馈,对开源和专有LLM进行了微调。我们使用文本相似性指标来衡量生成的反馈的质量。我们发现开源和专有模型都显示出复制他们在训练期间看到的反馈的希望,但不能很好地推广到以前未见过的学生错误。这些结果表明,尽管能够学习反馈的格式,但LLM无法完全理解学生所犯的数学错误。

🔬 方法详解

问题定义:论文旨在解决开放式数学问题中,智能辅导系统(ITS)反馈生成的问题。现有基于模板的方法需要大量人工,且难以覆盖所有可能的学生错误,导致反馈不够全面和个性化。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的学习和生成能力,通过模仿现有ITS的反馈,自动生成针对学生答案的反馈。期望LLM能够学习到错误类型和对应反馈之间的关系,从而减少人工成本并提高反馈的覆盖率。

技术框架:该研究的技术框架主要包括数据收集、模型微调和评估三个阶段。首先,收集真实的学生答案和ITS提供的反馈数据。然后,使用这些数据对开源和专有的LLM进行微调。最后,使用文本相似性指标评估生成的反馈与ITS提供的反馈之间的相似度。

关键创新:该研究的关键创新在于探索了LLM在自动生成数学问题反馈方面的潜力。与传统的基于模板的方法相比,LLM有望学习到更复杂的错误模式,并生成更个性化的反馈。

关键设计:论文的关键设计包括:1) 使用真实的学生答案和ITS反馈数据进行微调;2) 比较开源和专有LLM的性能;3) 使用文本相似性指标(如BLEU、ROUGE等)评估生成反馈的质量。具体的模型选择和超参数设置在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM在复制训练数据中的反馈方面表现出潜力,但泛化能力有限,难以处理未见过的学生错误。开源和专有模型都存在这个问题,表明LLM虽然可以学习反馈的格式,但未能真正理解数学错误。

🎯 应用场景

该研究成果可应用于智能辅导系统,自动生成针对开放式数学题的反馈,降低人工成本,提高反馈效率和覆盖率。未来,可以进一步探索LLM在其他学科和题型中的应用,构建更加智能和个性化的教育平台。

📄 摘要(原文)

Intelligent Tutoring Systems (ITSs) often contain an automated feedback component, which provides a predefined feedback message to students when they detect a predefined error. To such a feedback component, we often resort to template-based approaches. These approaches require significant effort from human experts to detect a limited number of possible student errors and provide corresponding feedback. This limitation is exemplified in open-ended math questions, where there can be a large number of different incorrect errors. In our work, we examine the capabilities of large language models (LLMs) to generate feedback for open-ended math questions, similar to that of an established ITS that uses a template-based approach. We fine-tune both open-source and proprietary LLMs on real student responses and corresponding ITS-provided feedback. We measure the quality of the generated feedback using text similarity metrics. We find that open-source and proprietary models both show promise in replicating the feedback they see during training, but do not generalize well to previously unseen student errors. These results suggest that despite being able to learn the formatting of feedback, LLMs are not able to fully understand mathematical errors made by students.