A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education

作者: Jacob Doughty, Zipiao Wan, Anishka Bompelli, Jubahed Qayum, Taozhi Wang, Juran Zhang, Yujia Zheng, Aidan Doyle, Pragnya Sridhar, Arav Agarwal, Christopher Bogart, Eric Keylor, Can Kultur, Jaromir Savelka, Majd Sakr

分类: cs.CY, cs.AI, cs.CL

发布日期: 2023-12-05

DOI: 10.1145/3636243.3636256

💡 一句话要点

利用GPT-4生成Python编程多选题：一项与人工命题的对比研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GPT-4 多选题生成 编程教育 大型语言模型 Python编程

📋 核心要点

教育领域持续需要更新和维护有效的评估方法，但利用LLM生成编程多选题的研究相对较少。
本文提出利用GPT-4生成与Python编程课程学习目标对齐的多选题，旨在辅助教育工作者进行试题创作。
实验表明，GPT-4能够生成语言清晰、选项合理且与学习目标对齐的多选题，具有辅助教学的潜力。

📝 摘要（中文）

教育工作者需要不断开发和维护有效的最新评估方法。虽然计算教育领域利用大型语言模型（LLM）生成和参与编码练习的研究越来越多，但LLM在生成编程多选题（MCQ）方面的应用尚未得到广泛探索。本文分析了GPT-4生成与高等教育Python编程课程特定学习目标（LO）相符的MCQ的能力。具体而言，我们开发了一个基于LLM（GPT-4）的系统，用于从高级课程上下文和模块级LO生成MCQ。我们评估了651个LLM生成的MCQ和449个人工编写的MCQ，这些MCQ与来自6个Python课程的246个LO对齐。我们发现GPT-4能够生成语言清晰、具有唯一正确选项和高质量干扰项的MCQ。我们还观察到，生成的MCQ与LO很好地对齐。我们的研究结果可以被希望利用最先进的生成模型来支持MCQ创作工作的教育工作者所利用。

🔬 方法详解

问题定义：论文旨在解决编程教育中多选题生成效率低下的问题。传统人工编写多选题耗时费力，且难以保证题目质量和与学习目标的对齐程度。现有方法缺乏对LLM在编程多选题生成方面的系统性研究。

核心思路：论文的核心思路是利用GPT-4强大的自然语言生成能力，根据课程上下文和学习目标自动生成多选题。通过精心设计的prompt，引导GPT-4生成符合要求的题目，并进行评估和优化。

技术框架：整体框架包含以下几个主要步骤：1) 收集Python编程课程的上下文信息和模块级学习目标（LO）；2) 设计prompt，将课程上下文和LO输入GPT-4；3) GPT-4生成多选题，包括题干、正确答案和干扰项；4) 人工评估生成的MCQ的质量，包括语言清晰度、正确性、干扰项质量和与LO的对齐程度；5) 根据评估结果，调整prompt或对GPT-4生成的MCQ进行修改。

关键创新：论文的关键创新在于探索了GPT-4在编程多选题生成方面的能力，并验证了其可行性和有效性。与传统方法相比，该方法能够显著提高多选题的生成效率，并保证题目质量。

关键设计：论文的关键设计包括：1) 精心设计的prompt，用于引导GPT-4生成符合要求的MCQ；2) 详细的评估指标，用于评估GPT-4生成的MCQ的质量；3) 对GPT-4生成的MCQ进行人工审核和修改，以确保最终题目的质量。

📊 实验亮点

实验结果表明，GPT-4能够生成语言清晰、具有唯一正确选项和高质量干扰项的MCQ。评估结果显示，生成的MCQ与学习目标（LO）具有良好的对齐性。该研究为教育工作者利用LLM辅助多选题创作提供了有价值的参考。

🎯 应用场景

该研究成果可应用于编程教育领域，辅助教师快速生成高质量的多选题，减轻教师的负担，提高教学效率。此外，该方法还可以扩展到其他学科，为各种类型的在线教育平台提供智能化的试题生成服务。未来，可以进一步研究如何利用LLM生成更具挑战性和创新性的编程题目。

📄 摘要（原文）

There is a constant need for educators to develop and maintain effective up-to-date assessments. While there is a growing body of research in computing education on utilizing large language models (LLMs) in generation and engagement with coding exercises, the use of LLMs for generating programming MCQs has not been extensively explored. We analyzed the capability of GPT-4 to produce multiple-choice questions (MCQs) aligned with specific learning objectives (LOs) from Python programming classes in higher education. Specifically, we developed an LLM-powered (GPT-4) system for generation of MCQs from high-level course context and module-level LOs. We evaluated 651 LLM-generated and 449 human-crafted MCQs aligned to 246 LOs from 6 Python courses. We found that GPT-4 was capable of producing MCQs with clear language, a single correct choice, and high-quality distractors. We also observed that the generated MCQs appeared to be well-aligned with the LOs. Our findings can be leveraged by educators wishing to take advantage of the state-of-the-art generative models to support MCQ authoring efforts.

A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册