Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models

📄 arXiv: 2602.03704v1 📥 PDF

作者: Yu Tian, Linh Huynh, Katerina Christhilf, Shubham Chakraborty, Micah Watanabe, Tracy Arner, Danielle McNamara

分类: cs.CL, cs.AI

发布日期: 2026-02-03

备注: This manuscript is under review at Electronics


💡 一句话要点

ReQUESTA:一种混合多智能体框架,利用大型语言模型生成认知多样性的多项选择题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多项选择题生成 大型语言模型 多智能体系统 认知多样性 阅读理解

📋 核心要点

  1. 现有方法难以可靠地生成满足特定认知需求的多项选择题,限制了自动化命题的应用。
  2. ReQUESTA框架通过分解任务、协调LLM智能体和规则组件,实现了认知多样性MCQ的生成。
  3. 实验表明,ReQUESTA生成的题目在难度、区分度、主题相关性和干扰项质量上均优于基线模型。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展使得自动生成多项选择题(MCQ)越来越可行;然而,可靠地生成满足受控认知需求的项目仍然是一个挑战。为了解决这一差距,我们引入了ReQUESTA,这是一个混合的多智能体框架,用于生成认知多样性的MCQ,系统地针对基于文本的、推理性的和主要思想的理解。ReQUESTA将MCQ的创作分解为专门的子任务,并协调LLM驱动的智能体与基于规则的组件,以支持规划、受控生成、迭代评估和后处理。我们使用学术说明文在一个大规模阅读理解研究中评估了该框架,将ReQUESTA生成的MCQ与单次GPT-5零样本基线生成的MCQ进行了比较。学习者反应的心理测量分析评估了项目的难度和区分度,而专家评估人员评估了多个维度的问题质量,包括主题相关性和干扰项质量。结果表明,ReQUESTA生成的项目始终更具挑战性、更具区分度,并且与整体阅读理解表现更强地对齐。专家评估进一步表明,与中心概念的对齐更强,并且干扰项的语言一致性和语义合理性更高,特别是对于推理性问题。这些发现表明,混合的、智能体的编排可以系统地提高基于LLM的生成的可信度和可控性,突出了工作流设计作为结构化人工制品生成的关键杠杆,超越了单次提示。

🔬 方法详解

问题定义:论文旨在解决自动生成高质量、认知多样性多项选择题(MCQ)的问题。现有方法,特别是基于单次提示的大型语言模型,难以可靠地控制题目的认知难度和区分度,导致生成的题目质量参差不齐,难以满足教学和评估的需求。

核心思路:论文的核心思路是将MCQ生成过程分解为多个专门的子任务,并为每个子任务设计专门的智能体(Agent)或规则组件。通过协调这些智能体,实现对生成过程的精细控制,从而提高生成题目的质量和认知多样性。这种混合多智能体框架的设计旨在结合LLM的生成能力和规则的约束力,克服单次提示方法的局限性。

技术框架:ReQUESTA框架包含以下主要模块:1) 规划模块:确定题目类型(文本、推理、主旨),并规划生成步骤。2) 生成模块:利用LLM智能体生成问题、答案和干扰项。3) 评估模块:使用规则或LLM智能体评估生成内容的质量,并进行迭代改进。4) 后处理模块:对生成的内容进行润色和格式化。这些模块通过一个协调器进行管理,确保各个模块之间的协同工作。

关键创新:ReQUESTA的关键创新在于其混合多智能体架构,它将LLM的生成能力与规则的约束力相结合,实现了对MCQ生成过程的精细控制。与传统的单次提示方法相比,ReQUESTA能够更可靠地生成满足特定认知需求的高质量题目。此外,ReQUESTA的模块化设计使得可以灵活地调整和扩展框架,以适应不同的应用场景。

关键设计:ReQUESTA的关键设计包括:1) 智能体类型:针对不同的子任务设计不同的智能体,例如问题生成智能体、答案生成智能体、干扰项生成智能体和评估智能体。2) 规则组件:使用规则来约束生成过程,例如确保干扰项的语言一致性和语义合理性。3) 迭代评估:通过迭代评估和改进,提高生成内容的质量。4) 提示工程:精心设计提示,引导LLM生成符合要求的题目。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ReQUESTA生成的题目在难度和区分度上均优于GPT-5零样本基线。专家评估显示,ReQUESTA生成的题目与中心概念的对齐更强,干扰项的语言一致性和语义合理性更高,尤其是在推理性问题上。这些结果证明了混合多智能体框架在提高MCQ生成质量方面的有效性。

🎯 应用场景

ReQUESTA框架可应用于教育领域,用于自动生成高质量的练习题、测试题和评估材料,减轻教师的负担,并提供个性化的学习体验。此外,该框架还可用于知识图谱构建、信息检索和自然语言理解等领域,提高机器对文本的理解和推理能力。未来,该研究有望推动自动化命题技术的发展,并促进教育资源的公平分配。

📄 摘要(原文)

Recent advances in large language models (LLMs) have made automated multiple-choice question (MCQ) generation increasingly feasible; however, reliably producing items that satisfy controlled cognitive demands remains a challenge. To address this gap, we introduce ReQUESTA, a hybrid, multi-agent framework for generating cognitively diverse MCQs that systematically target text-based, inferential, and main idea comprehension. ReQUESTA decomposes MCQ authoring into specialized subtasks and coordinates LLM-powered agents with rule-based components to support planning, controlled generation, iterative evaluation, and post-processing. We evaluated the framework in a large-scale reading comprehension study using academic expository texts, comparing ReQUESTA-generated MCQs with those produced by a single-pass GPT-5 zero-shot baseline. Psychometric analyses of learner responses assessed item difficulty and discrimination, while expert raters evaluated question quality across multiple dimensions, including topic relevance and distractor quality. Results showed that ReQUESTA-generated items were consistently more challenging, more discriminative, and more strongly aligned with overall reading comprehension performance. Expert evaluations further indicated stronger alignment with central concepts and superior distractor linguistic consistency and semantic plausibility, particularly for inferential questions. These findings demonstrate that hybrid, agentic orchestration can systematically improve the reliability and controllability of LLM-based generation, highlighting workflow design as a key lever for structured artifact generation beyond single-pass prompting.