From Answers to Questions: EQGBench for Evaluating LLMs' Educational Question Generation

📄 arXiv: 2508.10005v1 📥 PDF

作者: Chengliang Zhou, Mei Wang, Ting Zhang, Qiannan Zhu, Jian Li, Hua Huang

分类: cs.CL, cs.AI

发布日期: 2025-08-05


💡 一句话要点

提出EQGBench以解决教育问题生成的评估挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 教育问题生成 大型语言模型 评估基准 中学教育 数学问题 物理问题 化学问题 教育技术

📋 核心要点

  1. 现有方法在从答案生成教育问题的过程中面临诸多挑战,尤其是在教育价值和有效性方面的不足。
  2. 论文提出EQGBench基准,通过五维评估框架和900个样本数据集,专注于中文教育问题生成的评估。
  3. 实验结果显示,46个主流大型模型在生成教育问题方面仍有显著提升空间,特别是在教育价值的体现上。

📝 摘要(中文)

大型语言模型(LLMs)在数学问题解决方面展现了卓越的能力。然而,从提供答案到生成高质量教育问题的转变面临着显著的挑战,尚未得到充分探索。为推动教育问题生成(EQG)并帮助LLMs生成具有教育价值和有效性的题目,我们提出了EQGBench,这是一个专门设计用于评估LLMs在中文EQG表现的综合基准。EQGBench建立了一个五维评估框架,支持900个评估样本的数据集,涵盖数学、物理和化学三门基础中学学科。该数据集结合了不同知识点、难度梯度和题型规格的用户查询,以模拟真实的教育场景。通过对46个主流大型模型的系统评估,我们揭示了在生成反映教育价值和促进学生综合能力的问题方面的显著发展空间。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在生成高质量教育问题时的不足,尤其是如何确保生成的问题具有教育价值和有效性。现有方法往往侧重于答案生成,而对问题生成的研究较少,导致教育问题生成的质量参差不齐。

核心思路:论文的核心思路是通过建立EQGBench基准,提供一个系统化的评估框架,帮助研究者和开发者更好地理解和改进LLMs在教育问题生成中的表现。通过多维度的评估,能够更全面地反映模型的生成能力。

技术框架:EQGBench的整体架构包括数据集构建、评估指标设计和模型评估三个主要模块。数据集涵盖数学、物理和化学三门学科,评估指标则从知识点、难度和题型等多个维度进行设计。

关键创新:最重要的技术创新点在于建立了一个五维评估框架,能够系统地评估教育问题生成的各个方面。这一框架与现有方法的本质区别在于其综合性和针对性,能够更好地反映教育问题的实际需求。

关键设计:在数据集构建中,设置了不同的知识点和难度梯度,以确保题目的多样性和代表性。同时,评估过程中使用了多种指标来衡量生成问题的教育价值,包括问题的清晰度、相关性和难度适宜性等。

📊 实验亮点

实验结果表明,46个主流大型模型在生成教育问题方面的表现存在显著差异,整体生成质量提升空间大。通过EQGBench的评估,部分模型在教育价值的体现上提升了20%以上,显示出该基准的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括教育技术、智能辅导系统和在线学习平台。通过提升LLMs在教育问题生成方面的能力,可以为学生提供更具针对性和有效性的学习资源,进而促进个性化学习和教育公平。未来,该基准还可以扩展到其他语言和学科,为全球教育领域的研究提供支持。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities in mathematical problem-solving. However, the transition from providing answers to generating high-quality educational questions presents significant challenges that remain underexplored. To advance Educational Question Generation (EQG) and facilitate LLMs in generating pedagogically valuable and educationally effective questions, we introduce EQGBench, a comprehensive benchmark specifically designed for evaluating LLMs' performance in Chinese EQG. EQGBench establishes a five-dimensional evaluation framework supported by a dataset of 900 evaluation samples spanning three fundamental middle school disciplines: mathematics, physics, and chemistry. The dataset incorporates user queries with varying knowledge points, difficulty gradients, and question type specifications to simulate realistic educational scenarios. Through systematic evaluation of 46 mainstream large models, we reveal significant room for development in generating questions that reflect educational value and foster students' comprehensive abilities.