Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students' (Mis)Understanding Is Hinted

📄 arXiv: 2505.05815v2 📥 PDF

作者: Machi Shimmei, Masaki Uto, Yuichiroh Matsubayashi, Kentaro Inui, Aditi Mallavarapu, Noboru Matsuda

分类: cs.CL

发布日期: 2025-05-09 (更新: 2025-08-07)

备注: This is a pre-print version of a paper to appear in AIED2025. The camera-ready version is available at https://link.springer.com/chapter/10.1007/978-3-031-99264-3_16


💡 一句话要点

AnaQuest:利用学生理解偏差提示GPT生成高质量多选题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多项选择题生成 大型语言模型 项目反应理论 教育评估 学生理解偏差

📋 核心要点

  1. 现有方法难以有效利用学生对概念的误解来生成高质量多选题。
  2. AnaQuest通过分析学生开放式回答,提取正确和错误的断言,引导LLM生成更具区分度的多选题。
  3. 实验表明,AnaQuest生成的多选题在难度和区分度上更接近人工设计,且专家认为其有效性与人工题目相当。

📝 摘要(中文)

本研究旨在开发和评估一种创新的提示技术AnaQuest,用于使用预训练的大型语言模型生成多项选择题(MCQ)。在AnaQuest中,选项是关于复杂概念的句子级断言。该技术整合了形成性评估和总结性评估。在形成性阶段,学生以自由文本形式回答关于目标概念的开放式问题。对于总结性评估,AnaQuest分析这些回答以生成正确和不正确的断言。为了评估生成的MCQ的有效性,应用项目反应理论(IRT)来比较AnaQuest、基线ChatGPT提示和人工制作的项目之间的项目特征。一项实证研究发现,专家讲师认为两种AI模型生成的MCQ与人工讲师创建的MCQ一样有效。然而,基于IRT的分析表明,AnaQuest生成的问题——特别是那些带有不正确断言(干扰项)的问题——在难度和区分度方面比ChatGPT生成的问题更接近人工制作的项目。

🔬 方法详解

问题定义:论文旨在解决自动生成高质量多项选择题(MCQ)的问题,尤其关注如何利用学生对概念的常见误解来设计更具区分度的干扰项。现有方法,例如直接使用LLM生成MCQ,难以保证题目难度和区分度,生成的干扰项可能不够真实或具有迷惑性,无法有效评估学生对概念的掌握程度。

核心思路:论文的核心思路是利用学生在开放式问题中的回答来提取关于概念的正确和错误断言。这些断言随后被用作提示,引导LLM生成更贴近学生实际认知水平,且包含常见错误的多选题。通过分析学生的回答,可以更准确地捕捉到学生对概念的理解偏差,从而生成更有效的干扰项。

技术框架:AnaQuest包含两个主要阶段:形成性评估阶段和总结性评估阶段。在形成性评估阶段,学生需要回答关于目标概念的开放式问题,以自由文本形式表达他们的理解。在总结性评估阶段,AnaQuest分析学生在形成性评估阶段的回答,提取出正确和错误的断言。然后,这些断言被用作提示,输入到LLM中,生成包含正确答案和干扰项的多选题。最后,使用项目反应理论(IRT)分析生成的MCQ的质量。

关键创新:AnaQuest的关键创新在于其利用学生回答来生成提示,从而使LLM能够生成更具区分度的多选题。与直接使用LLM生成MCQ的方法相比,AnaQuest能够更好地捕捉学生对概念的理解偏差,从而生成更有效的干扰项。此外,AnaQuest整合了形成性评估和总结性评估,形成了一个完整的评估流程。

关键设计:在形成性评估阶段,需要设计合适的开放式问题,以引导学生充分表达他们对概念的理解。在提取断言时,需要使用自然语言处理技术对学生的回答进行分析,识别出关于概念的正确和错误陈述。在生成MCQ时,需要设计合适的提示模板,以引导LLM生成符合要求的题目。论文中使用了ChatGPT作为LLM,并针对其特点设计了特定的提示策略。具体参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

📊 实验亮点

实验结果表明,专家讲师认为AnaQuest和ChatGPT生成的MCQ与人工生成的MCQ具有同等效力。然而,基于IRT的分析表明,AnaQuest生成的问题在难度和区分度方面更接近人工制作的项目。这表明AnaQuest能够更有效地利用学生对概念的理解偏差,生成更具区分度的多选题。

🎯 应用场景

AnaQuest可应用于在线教育平台、智能辅导系统等领域,辅助教师自动生成高质量的多项选择题,减轻教师的负担。通过利用学生对概念的误解,生成的题目能够更准确地评估学生的掌握程度,并为个性化学习提供支持。未来,该技术可扩展到其他题型,并与其他教育技术相结合,提升教学效果。

📄 摘要(原文)

The primary goal of this study is to develop and evaluate an innovative prompting technique, AnaQuest, for generating multiple-choice questions (MCQs) using a pre-trained large language model. In AnaQuest, the choice items are sentence-level assertions about complex concepts. The technique integrates formative and summative assessments. In the formative phase, students answer open-ended questions for target concepts in free text. For summative assessment, AnaQuest analyzes these responses to generate both correct and incorrect assertions. To evaluate the validity of the generated MCQs, Item Response Theory (IRT) was applied to compare item characteristics between MCQs generated by AnaQuest, a baseline ChatGPT prompt, and human-crafted items. An empirical study found that expert instructors rated MCQs generated by both AI models to be as valid as those created by human instructors. However, IRT-based analysis revealed that AnaQuest-generated questions - particularly those with incorrect assertions (foils) - more closely resembled human-crafted items in terms of difficulty and discrimination than those produced by ChatGPT.