Comparison of Large Language Models for Generating Contextually Relevant Questions

作者: Ivo Lodovico Molina, Valdemar Švábenský, Tsubasa Minematsu, Li Chen, Fumiya Okubo, Atsushi Shimada

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-07-30 (更新: 2024-09-15)

备注: Published in Springer ECTEL 2024 conference proceedings, see https://doi.org/10.1007/978-3-031-72312-4_18

DOI: 10.1007/978-3-031-72312-4_18

💡 一句话要点

对比大型语言模型在教育场景下生成上下文相关问题的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动问题生成 大型语言模型 教育应用 幻灯片文本 用户评估

📋 核心要点

现有自动问题生成方法难以保证生成问题与上下文的高度相关性，且缺乏对教育场景的针对性优化。
该研究提出利用大型语言模型，通过两阶段流程：答案提取和问题生成，来生成与幻灯片内容相关的教育问题。
实验结果表明，GPT-3.5和Llama 2-Chat 13B在清晰度和问答对齐方面优于Flan T5 XXL，验证了LLM在教育问题生成中的潜力。

📝 摘要（中文）

本研究探讨了大型语言模型（LLMs）在教育环境中自动问题生成方面的有效性。对比了三个LLM在无需微调的情况下，从大学幻灯片文本中生成问题的能力。问题生成采用两步流程：首先，使用Llama 2-Chat 13B从幻灯片中提取答案短语；然后，三个模型针对每个答案生成问题。为了分析这些问题是否适合学生的教育应用，我们对46名学生进行了一项调查，他们根据清晰度、相关性、难度、幻灯片关系和问答对齐五个指标评估了总共246个问题。结果表明，GPT-3.5和Llama 2-Chat 13B的表现略优于Flan T5 XXL，尤其是在清晰度和问答对齐方面。GPT-3.5尤其擅长调整问题以匹配输入的答案。本研究的贡献在于分析了LLM在教育领域自动问题生成方面的能力。

🔬 方法详解

问题定义：论文旨在解决教育场景下自动生成高质量、上下文相关问题的难题。现有方法通常难以保证生成的问题与教学材料（如幻灯片）紧密相关，且缺乏对问题清晰度、难度和问答一致性的有效控制，导致生成的问题难以直接应用于教学实践。

核心思路：论文的核心思路是利用大型语言模型（LLMs）强大的文本理解和生成能力，通过两阶段流程实现自动问题生成。首先，从教学材料中提取关键的答案短语；然后，利用LLM针对这些答案短语生成相应的问题。这种方法旨在确保生成的问题与教学内容紧密相关，并能够根据答案进行定制。

技术框架：整体流程包含两个主要阶段：1) 答案提取阶段：使用Llama 2-Chat 13B模型从大学幻灯片文本中提取答案短语。2) 问题生成阶段：使用三个不同的LLM（GPT-3.5, Llama 2-Chat 13B, Flan T5 XXL）针对每个提取的答案短语生成问题。最后，通过用户调查评估生成问题的质量。

关键创新：该研究的关键创新在于探索了直接利用预训练的LLM（无需微调）进行教育场景下的自动问题生成。与传统的基于规则或统计的方法相比，LLM能够更好地理解上下文，生成更自然、更具挑战性的问题。此外，该研究还通过用户调查对生成的问题进行了全面的评估，为LLM在教育领域的应用提供了有价值的参考。

关键设计：在答案提取阶段，Llama 2-Chat 13B被用作答案提取器，其具体prompt工程和参数设置未知。在问题生成阶段，三个LLM均采用zero-shot的方式生成问题，没有进行任何微调。评估指标包括清晰度、相关性、难度、幻灯片关系和问答对齐，这些指标通过用户调查进行量化。

📊 实验亮点

实验结果表明，GPT-3.5和Llama 2-Chat 13B在清晰度和问答对齐方面略优于Flan T5 XXL。尤其值得注意的是，GPT-3.5在根据输入答案定制问题方面表现出色。用户调查结果为LLM在教育问题生成中的应用提供了有价值的量化评估。

🎯 应用场景

该研究成果可应用于在线教育平台、智能辅导系统和教学资源库建设等领域。自动生成高质量的练习题和测试题，能够有效减轻教师的工作负担，并为学生提供个性化的学习体验。未来，可以将该方法扩展到其他类型的教育材料，如教材、论文等，进一步提升教育资源的智能化水平。

📄 摘要（原文）

This study explores the effectiveness of Large Language Models (LLMs) for Automatic Question Generation in educational settings. Three LLMs are compared in their ability to create questions from university slide text without fine-tuning. Questions were obtained in a two-step pipeline: first, answer phrases were extracted from slides using Llama 2-Chat 13B; then, the three models generated questions for each answer. To analyze whether the questions would be suitable in educational applications for students, a survey was conducted with 46 students who evaluated a total of 246 questions across five metrics: clarity, relevance, difficulty, slide relation, and question-answer alignment. Results indicate that GPT-3.5 and Llama 2-Chat 13B outperform Flan T5 XXL by a small margin, particularly in terms of clarity and question-answer alignment. GPT-3.5 especially excels at tailoring questions to match the input answers. The contribution of this research is the analysis of the capacity of LLMs for Automatic Question Generation in education.

Comparison of Large Language Models for Generating Contextually Relevant Questions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理