Math Multiple Choice Question Generation via Human-Large Language Model Collaboration

📄 arXiv: 2405.00864v1 📥 PDF

作者: Jaewook Lee, Digory Smith, Simon Woodhead, Andrew Lan

分类: cs.CL

发布日期: 2024-05-01

备注: 17th International Conference on Educational Data Mining (EDM 2024)


💡 一句话要点

提出人机协作工具,利用大语言模型辅助生成高质量数学选择题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学选择题生成 人机协作 大型语言模型 教育应用 自动化题库

📋 核心要点

  1. 高质量数学选择题的生成耗时费力,需要精确的题干和合理的干扰项,现有方法难以自动化。
  2. 论文提出一种人机协作工具,利用大型语言模型生成题干,人工修正干扰项,提升效率。
  3. 初步研究表明,LLM擅长生成题干,但在干扰项设计上存在不足,人机协作具有潜力。

📝 摘要(中文)

选择题(MCQ)因其管理和评分效率而成为评估学生知识的常用方法。然而,设计高质量的数学选择题需要教育工作者付出大量劳动,以构建精确的题干和合理的干扰项。近年来,大型语言模型(LLM)的进步激发了人们对自动生成选择题的兴趣,但在确保数学准确性和解决学生错误方面仍然存在挑战。本文介绍了一个原型工具,旨在促进LLM和教育工作者之间的协作,以简化数学选择题的生成过程。我们进行了一项涉及数学教育工作者的初步研究,以调查该工具如何帮助他们简化制作高质量数学选择题的过程。我们发现,虽然LLM可以生成结构良好的题干,但它们生成能够捕捉常见学生错误和误解的干扰项的能力有限。尽管如此,人机协作有可能提高选择题生成的效率和有效性。

🔬 方法详解

问题定义:论文旨在解决数学选择题自动生成的问题。现有方法,特别是纯粹依赖大型语言模型的方法,在生成既数学上正确,又能有效区分学生对概念理解程度的干扰项方面存在困难。痛点在于LLM难以准确模拟学生常犯的错误和误解。

核心思路:论文的核心思路是结合大型语言模型的生成能力和人类专家的知识,通过人机协作的方式来生成高质量的数学选择题。LLM负责生成题干,人类专家负责审查和修改LLM生成的干扰项,确保其合理性和有效性。

技术框架:该工具采用人机协作的流程。首先,LLM根据给定的数学知识点或题目类型生成题干。然后,LLM尝试生成一些干扰项。接下来,人类专家审查题干和干扰项,并进行必要的修改。专家可以修改题干,添加、删除或修改干扰项。最后,生成最终的数学选择题。

关键创新:该论文的关键创新在于提出了一种人机协作的数学选择题生成流程,充分利用了LLM在题干生成方面的优势,并弥补了其在干扰项生成方面的不足。通过人类专家的参与,可以确保生成的选择题的质量和有效性。

关键设计:论文侧重于流程设计和工具原型开发,并未详细描述LLM的具体参数设置或网络结构。关键在于如何设计用户界面,方便人类专家审查和修改LLM生成的内容。损失函数和网络结构等技术细节未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该研究通过初步实验表明,LLM在生成结构良好的数学选择题题干方面表现出色,但在生成能够捕捉学生常见错误和误解的干扰项方面存在局限性。人机协作模式能够有效提升选择题生成的效率和质量,但具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于在线教育平台、题库建设、自动化考试系统等领域。通过人机协作,可以大幅提高数学选择题的生成效率,降低人工成本,并保证题目质量。未来,该方法可以推广到其他学科的选择题生成,甚至可以用于生成其他类型的教育资源。

📄 摘要(原文)

Multiple choice questions (MCQs) are a popular method for evaluating students' knowledge due to their efficiency in administration and grading. Crafting high-quality math MCQs is a labor-intensive process that requires educators to formulate precise stems and plausible distractors. Recent advances in large language models (LLMs) have sparked interest in automating MCQ creation, but challenges persist in ensuring mathematical accuracy and addressing student errors. This paper introduces a prototype tool designed to facilitate collaboration between LLMs and educators for streamlining the math MCQ generation process. We conduct a pilot study involving math educators to investigate how the tool can help them simplify the process of crafting high-quality math MCQs. We found that while LLMs can generate well-formulated question stems, their ability to generate distractors that capture common student errors and misconceptions is limited. Nevertheless, a human-AI collaboration has the potential to enhance the efficiency and effectiveness of MCQ generation.