DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions

📄 arXiv: 2406.19356v2 📥 PDF

作者: Nigel Fernandez, Alexander Scarlatos, Wanyong Feng, Simon Woodhead, Andrew Lan

分类: cs.CL, cs.CY, cs.LG

发布日期: 2024-06-27 (更新: 2024-10-08)

备注: EMNLP 2024: The 2024 Conference on Empirical Methods in Natural Language Processing


💡 一句话要点

DiVERT:基于变分误差文本表示的数学多选题干扰项生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 干扰项生成 多选题 变分自编码器 数学教育 自然语言处理

📋 核心要点

  1. 数学多选题干扰项生成面临挑战,现有方法难以准确捕捉学生潜在的知识缺陷和错误。
  2. DiVERT通过变分方法学习干扰项背后错误的可解释文本表示,从而生成更具迷惑性的干扰项。
  3. 实验结果表明,DiVERT在干扰项生成任务中优于GPT-4o,且生成的错误标签质量与人工标注相当。

📝 摘要(中文)

高质量的干扰项对于多选题(MCQ)的评估和教学价值至关重要,但手动设计能够预测学生知识缺陷或误解的干扰项非常困难。即使借助大型语言模型(LLM),自动生成干扰项对于数学等学科仍然具有挑战性。关键不仅在于识别合理的干扰项,还在于理解其背后的错误。本文提出了DiVERT(Distractor Generation with Variational Errors Represented as Text),一种新颖的变分方法,用于学习数学MCQ中干扰项背后错误的可解释表示。在包含1434个问题、被成千上万学生使用的真实数学MCQ数据集上的实验表明,DiVERT即使使用7B参数的基础开源LLM,在下游干扰项生成方面也优于使用GPT-4o的最新方法。我们还与数学教育工作者进行了人工评估,发现DiVERT产生的错误标签质量与人工编写的标签相当。

🔬 方法详解

问题定义:论文旨在解决数学多选题中自动生成高质量干扰项的问题。现有方法,即使是基于大型语言模型的方法,也难以生成既合理又具有迷惑性的干扰项,并且缺乏对干扰项背后错误的解释性。手动创建干扰项成本高昂且难以覆盖所有可能的错误类型。

核心思路:DiVERT的核心思路是将干扰项生成过程建模为一个变分推断问题,通过学习一个潜在变量来表示干扰项背后的错误类型。这个潜在变量被编码为文本形式,使得模型能够学习到可解释的错误表示,并利用这些表示生成更符合学生认知错误的干扰项。

技术框架:DiVERT的整体框架包含以下几个主要模块:1) 编码器:将问题和答案选项编码为向量表示。2) 变分自编码器(VAE):学习干扰项背后错误的潜在文本表示。3) 解码器:基于问题、答案选项和潜在错误表示生成干扰项。4) 判别器:用于区分生成的干扰项和真实答案,以提高生成质量。整个流程通过端到端的方式进行训练。

关键创新:DiVERT最重要的技术创新在于使用变分自编码器学习干扰项背后错误的可解释文本表示。这种方法不仅能够生成更合理的干扰项,还能够提供对干扰项背后错误的解释,有助于教师理解学生的学习难点。此外,DiVERT使用文本表示错误,更易于理解和解释,也方便后续的人工审核和改进。

关键设计:DiVERT使用了一个基于Transformer的编码器和解码器。变分自编码器使用KL散度作为正则化项,鼓励潜在变量服从标准正态分布。损失函数包括生成损失(衡量生成干扰项与真实干扰项的相似度)、判别损失(衡量判别器区分生成干扰项和真实答案的能力)和KL散度损失(衡量潜在变量与标准正态分布的差异)。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiVERT在真实数学MCQ数据集上取得了显著的性能提升,即使使用参数量较小的开源LLM(7B),也优于使用GPT-4o的最新方法。人工评估表明,DiVERT生成的错误标签质量与人工编写的标签相当,证明了该方法在生成高质量且可解释的干扰项方面的有效性。

🎯 应用场景

DiVERT可应用于在线教育平台、智能题库系统和个性化学习工具中,自动生成高质量的数学多选题干扰项,提高题目的区分度和教学效果。通过分析生成的干扰项及其背后的错误类型,教师可以更好地了解学生的学习难点,从而进行更有针对性的教学。此外,该方法还可以扩展到其他学科的干扰项生成任务中。

📄 摘要(原文)

High-quality distractors are crucial to both the assessment and pedagogical value of multiple-choice questions (MCQs), where manually crafting ones that anticipate knowledge deficiencies or misconceptions among real students is difficult. Meanwhile, automated distractor generation, even with the help of large language models (LLMs), remains challenging for subjects like math. It is crucial to not only identify plausible distractors but also understand the error behind them. In this paper, we introduce DiVERT (Distractor Generation with Variational Errors Represented as Text), a novel variational approach that learns an interpretable representation of errors behind distractors in math MCQs. Through experiments on a real-world math MCQ dataset with 1,434 questions used by hundreds of thousands of students, we show that DiVERT, despite using a base open-source LLM with 7B parameters, outperforms state-of-the-art approaches using GPT-4o on downstream distractor generation. We also conduct a human evaluation with math educators and find that DiVERT leads to error labels that are of comparable quality to human-authored ones.