A Novel Approach to Scalable and Automatic Topic-Controlled Question Generation in Education

📄 arXiv: 2501.05220v1 📥 PDF

作者: Ziqing Li, Mutlu Cukurova, Sahan Bulathwela

分类: cs.CY, cs.AI, cs.CL, cs.IR

发布日期: 2025-01-09

备注: To be published at ACM Conf. on Learning Analytics and Knowledge (LAK'25)


💡 一句话要点

提出主题控制问题生成(T-CQG)方法,提升教育场景下自动问题生成的质量与可控性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动问题生成 主题控制 教育应用 T5模型 微调 数据增强 个性化学习

📋 核心要点

  1. 现有自动问题生成模型缺乏对问题主题的有效控制,难以满足教育场景对特定主题问题生成的需求。
  2. 提出主题控制问题生成(T-CQG)方法,通过微调T5-small模型,并结合教育定制数据集,实现对问题主题的精确控制。
  3. 实验结果表明,该方法能够有效生成高质量、主题聚焦的问题,并具有良好的可扩展性,降低了部署成本。

📝 摘要(中文)

本文提出了一种新颖的教育问题自动生成方法,旨在控制问题的特定主题焦点,从而提高生成内容在教育领域的针对性和有效性。该方法名为主题控制问题生成(T-CQG),通过在预训练的T5-small模型上进行微调实现,并使用专门为教育需求定制的数据集。研究进一步探讨了预训练策略、量化和数据增强对模型性能的影响。特别关注生成与段落级上下文语义对齐的问题,从而提高生成问题的topic specificity。此外,引入并探索了新的评估方法来评估生成问题的主题相关性。通过严格的离线和人工评估验证,结果表明所提出的模型能够有效地生成高质量、主题聚焦的问题。这些模型有潜力减少教师的工作量,并通过作为定制问题生成器来支持个性化辅导系统。凭借相对较少的参数,该方案不仅提高了问题生成模型处理特定教育主题的能力,还提供了一种可扩展的解决方案,降低了基础设施成本,使其能够在教育领域广泛使用,而无需依赖ChatGPT等专有大型语言模型。

🔬 方法详解

问题定义:论文旨在解决教育领域自动问题生成中,现有方法难以有效控制生成问题主题的问题。现有方法生成的题目可能与教学内容关联性较弱,无法满足教师针对特定知识点进行提问的需求,同时也难以支持个性化学习场景。

核心思路:论文的核心思路是利用预训练语言模型T5-small的强大生成能力,通过在特定教育主题数据集上进行微调,使模型能够学习到生成特定主题问题的能力。同时,通过引入新的评估方法,更准确地评估生成问题与目标主题的相关性。

技术框架:T-CQG方法主要包含以下几个阶段:1) 数据准备:构建或收集特定教育主题的数据集,用于模型的微调。2) 模型微调:在预训练的T5-small模型上,使用准备好的数据集进行微调,使模型学习生成特定主题问题的能力。3) 模型优化:探索预训练策略、量化和数据增强等技术,进一步提升模型的性能。4) 模型评估:使用离线评估指标和人工评估方法,评估生成问题的质量和主题相关性。

关键创新:论文的关键创新在于:1) 提出了主题控制问题生成(T-CQG)方法,实现了对问题主题的精确控制。2) 针对教育场景,构建了专门的数据集,并探索了不同的预训练策略、量化和数据增强技术。3) 引入了新的评估方法,更准确地评估生成问题与目标主题的相关性。

关键设计:论文的关键设计包括:1) 选择T5-small作为基础模型,兼顾了性能和可扩展性。2) 使用专门构建的教育数据集进行微调,保证了生成问题的质量和主题相关性。3) 探索了不同的数据增强方法,如回译等,以提升模型的泛化能力。4) 采用了BLEU、ROUGE等常用指标以及人工评估,综合评估生成问题的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,T-CQG模型能够有效生成高质量、主题聚焦的问题。通过与基线模型进行对比,T-CQG模型在BLEU和ROUGE等指标上均取得了显著提升。人工评估结果也表明,T-CQG模型生成的问题与目标主题的相关性更高,质量更好。此外,研究还验证了量化和数据增强等技术对模型性能的提升效果。

🎯 应用场景

该研究成果可应用于智能教育平台、在线学习系统和个性化辅导工具中。教师可以利用该模型快速生成针对特定知识点的练习题,减轻备课负担。学生可以通过该模型生成的题目进行自测,检验学习效果。此外,该模型还可以用于构建智能问答系统,为学生提供个性化的学习辅导。

📄 摘要(原文)

The development of Automatic Question Generation (QG) models has the potential to significantly improve educational practices by reducing the teacher workload associated with creating educational content. This paper introduces a novel approach to educational question generation that controls the topical focus of questions. The proposed Topic-Controlled Question Generation (T-CQG) method enhances the relevance and effectiveness of the generated content for educational purposes. Our approach uses fine-tuning on a pre-trained T5-small model, employing specially created datasets tailored to educational needs. The research further explores the impacts of pre-training strategies, quantisation, and data augmentation on the model's performance. We specifically address the challenge of generating semantically aligned questions with paragraph-level contexts, thereby improving the topic specificity of the generated questions. In addition, we introduce and explore novel evaluation methods to assess the topical relatedness of the generated questions. Our results, validated through rigorous offline and human-backed evaluations, demonstrate that the proposed models effectively generate high-quality, topic-focused questions. These models have the potential to reduce teacher workload and support personalised tutoring systems by serving as bespoke question generators. With its relatively small number of parameters, the proposals not only advance the capabilities of question generation models for handling specific educational topics but also offer a scalable solution that reduces infrastructure costs. This scalability makes them feasible for widespread use in education without reliance on proprietary large language models like ChatGPT.