Does Multiple Choice Have a Future in the Age of Generative AI? A Posttest-only RCT
作者: Danielle R. Thomas, Conrad Borchers, Sanjit Kakarla, Jionghao Lin, Shambhavi Bhushan, Boyuan Guo, Erin Gatz, Kenneth R. Koedinger
分类: cs.HC, cs.AI
发布日期: 2024-12-13
备注: Full research paper accepted to Learning Analytics and Knowledge (LAK 2025)
💡 一句话要点
对比选择题与开放式问题在生成式AI时代下的教学效果,发现选择题效率更高。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 选择题 开放式问题 教学效果 大型语言模型 自动评分 教育技术 随机对照实验
📋 核心要点
- 传统教学中选择题因易于评分而被广泛使用,但其学习效果一直存在争议,面临开放式问题自动评分技术的挑战。
- 该研究对比了选择题、开放式问题以及两者结合三种教学模式对学习效果的影响,旨在评估选择题在有限时间内的教学效率。
- 实验结果表明,在后测中,不同教学模式的学习效果没有显著差异,但选择题模式完成教学的时间更短,效率更高。
📝 摘要(中文)
本研究探讨了在大型语言模型(LLM)自动评分技术进步的背景下,选择题(MCQ)作为有效学习工具的价值。相较于因易于评分而被广泛使用的选择题,开放式问题正越来越多地被应用于教学。本研究评估了选择题和开放式问题(单独或组合)对学习的有效性。这些活动嵌入在六个关于倡导的辅导课程中。采用仅有后测的随机对照设计,我们比较了234名导师(790个课程完成情况)在三种条件下的表现:仅选择题、仅开放式问题以及两者结合。结果表明,在后测中,各条件下的学习效果没有显著差异,但选择题条件下的导师完成教学的时间明显更少。这些发现表明,在练习时间有限的情况下,选择题与开放式任务一样有效,且效率更高。为了进一步提高效率,我们使用GPT-4o和GPT-4-turbo自动评分开放式问题。GPT模型展示了在低风险评估方面的能力,但更广泛的应用还需要进一步研究。本研究贡献了一个包含课程日志数据、人工标注规则和LLM提示的数据集,以提高透明度和可重复性。
🔬 方法详解
问题定义:本研究旨在解决的问题是,在大型语言模型(LLM)能够自动评分开放式问题的情况下,选择题(MCQ)作为一种教学工具是否仍然有效。现有方法的痛点在于,选择题的学习效果一直存在争议,而开放式问题在LLM的支持下,评分难度降低,其教学优势可能更加明显。
核心思路:论文的核心思路是通过实验对比选择题和开放式问题在教学中的效果,以确定在练习时间有限的情况下,哪种方式更有效率。研究假设选择题可能在效率上更具优势,因为其评分简单,学生可以更快地获得反馈。
技术框架:研究采用后测式随机对照实验设计。234名导师被随机分配到三个条件:仅选择题、仅开放式问题以及两者结合。所有导师完成六个关于倡导的辅导课程。在课程结束后,对所有导师进行后测,以评估其学习效果。同时,记录导师完成课程的时间。此外,研究还使用GPT-4o和GPT-4-turbo对开放式问题进行自动评分。
关键创新:本研究的关键创新在于,它在LLM自动评分技术日益成熟的背景下,重新评估了选择题的教学价值。以往的研究主要集中在选择题和开放式问题在学习效果上的差异,而本研究则更加关注在有限时间内,哪种方式更有效率。此外,研究还探索了使用LLM自动评分开放式问题的可行性。
关键设计:研究的关键设计包括:1) 采用后测式随机对照实验,以确保实验结果的可靠性;2) 使用六个关于倡导的辅导课程,以提供足够的学习材料;3) 记录导师完成课程的时间,以评估教学效率;4) 使用GPT-4o和GPT-4-turbo对开放式问题进行自动评分,并评估其准确性。没有提及具体的参数设置、损失函数、网络结构等技术细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在后测中,选择题、开放式问题以及两者结合三种教学模式的学习效果没有显著差异。然而,选择题模式下的导师完成教学的时间明显更少,表明选择题在有限时间内具有更高的教学效率。此外,GPT-4o和GPT-4-turbo在自动评分开放式问题方面表现出一定的能力。
🎯 应用场景
该研究成果可应用于在线教育平台、企业培训等领域,帮助教育者和培训师选择更有效的教学方法。尤其是在时间有限的情况下,选择题可能是一种更高效的选择。此外,利用LLM自动评分开放式问题,可以降低教学成本,提高教学效率,为个性化学习提供更多可能性。
📄 摘要(原文)
The role of multiple-choice questions (MCQs) as effective learning tools has been debated in past research. While MCQs are widely used due to their ease in grading, open response questions are increasingly used for instruction, given advances in large language models (LLMs) for automated grading. This study evaluates MCQs effectiveness relative to open-response questions, both individually and in combination, on learning. These activities are embedded within six tutor lessons on advocacy. Using a posttest-only randomized control design, we compare the performance of 234 tutors (790 lesson completions) across three conditions: MCQ only, open response only, and a combination of both. We find no significant learning differences across conditions at posttest, but tutors in the MCQ condition took significantly less time to complete instruction. These findings suggest that MCQs are as effective, and more efficient, than open response tasks for learning when practice time is limited. To further enhance efficiency, we autograded open responses using GPT-4o and GPT-4-turbo. GPT models demonstrate proficiency for purposes of low-stakes assessment, though further research is needed for broader use. This study contributes a dataset of lesson log data, human annotation rubrics, and LLM prompts to promote transparency and reproducibility.