LookAlike: Consistent Distractor Generation in Math MCQs

📄 arXiv: 2505.01903v2 📥 PDF

作者: Nisarg Parikh, Nigel Fernandez, Alexander Scarlatos, Simon Woodhead, Andrew Lan

分类: cs.LG, cs.AI

发布日期: 2025-05-03 (更新: 2025-06-07)


💡 一句话要点

LookAlike:通过偏好优化生成一致性数学多选题干扰项

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学多选题 干扰项生成 偏好优化 大型语言模型 不一致性挖掘

📋 核心要点

  1. 现有方法难以保证生成的数学多选题干扰项与学生常见错误保持一致,影响教学效果。
  2. LookAlike通过挖掘模型自身生成的不一致性,构建偏好优化目标,提升干扰项与学生错误的关联性。
  3. 实验表明,LookAlike在干扰项和错误生成方面均优于现有方法,验证了偏好优化和不一致性挖掘的有效性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用于生成多项选择题(MCQs)的干扰项,尤其是在数学教育等领域。然而,现有方法在确保生成的干扰项与常见的学生错误一致方面存在局限性。我们提出LookAlike,一种通过偏好优化来提高错误-干扰项一致性的方法。我们的两个主要创新是:(a)从模型不一致性中挖掘合成偏好对,以及(b)交替进行监督微调(SFT)和直接偏好优化(DPO)以稳定训练。与依赖启发式方法或手动标注偏好数据的先前工作不同,LookAlike使用其自身的生成不一致性作为不优选的样本,从而实现可扩展和稳定的训练。在超过1400个数学MCQ的真实数据集上进行评估,LookAlike在LLM-as-a-judge评估下,干扰项生成准确率达到51.6%,错误生成准确率达到57.2%,优于现有的最先进方法(45.6%/47.7%)。这些改进突出了基于偏好的正则化和不一致性挖掘在规模化生成一致性数学MCQ干扰项方面的有效性。

🔬 方法详解

问题定义:论文旨在解决数学多项选择题(MCQ)中,由大型语言模型(LLM)生成的干扰项与学生实际错误不一致的问题。现有方法依赖启发式规则或人工标注数据,成本高昂且难以保证生成质量。这些方法生成的干扰项可能不够真实,无法有效评估学生的理解程度。

核心思路:LookAlike的核心思路是利用LLM自身生成结果的不一致性,构建偏好学习的训练数据。具体来说,如果LLM在不同条件下对同一问题的生成结果不同,则认为这些结果之间存在偏好关系,并将其用于训练,从而使模型倾向于生成更符合学生错误模式的干扰项。

技术框架:LookAlike方法包含以下主要阶段:1) 使用LLM生成多个干扰项候选;2) 从这些候选中挖掘不一致的生成结果,构建偏好对(优选和不优选);3) 使用监督微调(SFT)和直接偏好优化(DPO)交替训练LLM,其中DPO利用挖掘的偏好对进行优化。SFT用于初始化模型并提供监督信号,DPO则用于调整模型的偏好,使其生成更符合学生错误模式的干扰项。

关键创新:LookAlike最重要的创新在于利用模型自身的不一致性来构建偏好数据,避免了对人工标注数据的依赖,实现了可扩展的训练。与现有方法相比,LookAlike能够更有效地捕捉学生常见的错误模式,从而生成更具迷惑性的干扰项。此外,交替使用SFT和DPO也提高了训练的稳定性。

关键设计:LookAlike的关键设计包括:1) 如何定义和挖掘模型生成结果的不一致性,例如,可以通过改变prompt或采样策略来生成不同的候选;2) 如何构建偏好对,例如,可以将模型在原始prompt下的生成结果作为优选,而在修改后的prompt下的生成结果作为不优选;3) 如何设置SFT和DPO的训练比例和学习率,以平衡监督信号和偏好信号,并避免训练不稳定。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

LookAlike在真实数学MCQ数据集上取得了显著的性能提升。在LLM-as-a-judge评估下,干扰项生成准确率达到51.6%,错误生成准确率达到57.2%,分别比现有最佳方法提高了6%和9.5%。这些结果表明,LookAlike能够更有效地生成与学生错误一致的干扰项。

🎯 应用场景

LookAlike方法可应用于在线教育平台、智能辅导系统和自动命题系统,用于生成高质量的数学多选题干扰项,从而更准确地评估学生的知识掌握程度,并提供个性化的学习建议。该方法还可以扩展到其他学科,提高教学资源的质量和效率,促进教育公平。

📄 摘要(原文)

Large language models (LLMs) are increasingly used to generate distractors for multiple-choice questions (MCQs), especially in domains like math education. However, existing approaches are limited in ensuring that the generated distractors are consistent with common student errors. We propose LookAlike, a method that improves error-distractor consistency via preference optimization. Our two main innovations are: (a) mining synthetic preference pairs from model inconsistencies, and (b) alternating supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to stabilize training. Unlike prior work that relies on heuristics or manually annotated preference data, LookAlike uses its own generation inconsistencies as dispreferred samples, thus enabling scalable and stable training. Evaluated on a real-world dataset of 1,400+ math MCQs, LookAlike achieves 51.6% accuracy in distractor generation and 57.2% in error generation under LLM-as-a-judge evaluation, outperforming an existing state-of-the-art method (45.6% / 47.7%). These improvements highlight the effectiveness of preference-based regularization and inconsistency mining for generating consistent math MCQ distractors at scale.