SciEval: A Benchmark for Automatic Evaluation of K-12 Science Instructional Materials

📄 arXiv: 2604.25472v1 📥 PDF

作者: Zhaohui Li, Peng He, Zhiyuan Chen, Honglu Liu, Zeyuan Wang, Tingting Li, Jinjun Xiong

分类: cs.AI

发布日期: 2026-04-28

期刊: AIED 2026


💡 一句话要点

SciEval:构建K-12科学教学材料自动评估基准,并验证领域微调的有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: K-12科学教育 教学材料评估 自动评估 大型语言模型 领域微调 生成式AI 基准数据集

📋 核心要点

  1. 现有K-12科学教学材料评估耗时费力,缺乏可扩展性,而通用LLM在教学材料评估上的性能有待考察。
  2. 论文提出将教学材料评估定义为生成式AI任务,利用LLM预测基于评估标准的得分和证据,实现自动评估。
  3. 构建了SciEval数据集,包含专家标注的教学材料评估数据。实验表明,领域微调能显著提升LLM在教学材料评估上的性能。

📝 摘要(中文)

随着生成式AI在K-12科学教育中被广泛用于创建教学材料,评估这些材料的需求日益增长。然而,人工评估耗时、需要专业知识且难以扩展,因此自动评估方法备受关注。尽管大型语言模型(LLMs)在通用评估任务中表现出色,但它们在教学材料上的性能和可靠性尚不清楚。为了解决这个问题,我们将自动教学材料评估(AIME)定义为一个生成式AI任务,即使用教育者设计的评估标准预测分数和证据。我们创建了一个基准数据集并开发了AIME的基线模型。首先,我们整理了第一个AIME数据集SciEval,其中包含根据教学法对齐的评估分数和基于证据的理由进行注释的教学材料。专家注释实现了高评分者间可靠性,从而产生了一个包含273个课程级别的教学材料的数据集,这些材料使用EQuIP评估标准在13个标准(N=3549)上进行了评估。其次,我们在SciEval上测试了主流LLM(GPT、Gemini、Llama和Qwen),发现没有一个能达到强大的性能。然后,我们对SciEval上的Qwen3进行了微调。在保留的测试集上的结果表明,领域对齐的微调可以实现高达11%的性能提升,突出了领域特定微调对于AIME的重要性,并促进了LLM在其他教育任务中的使用。

🔬 方法详解

问题定义:论文旨在解决K-12科学教学材料的自动评估问题。现有的人工评估方法存在耗时、需要专业知识和难以扩展的痛点。虽然大型语言模型在通用评估任务中表现出一定的能力,但它们在评估教学材料方面的性能和可靠性尚未得到充分验证。因此,如何利用LLM实现高效、准确的教学材料自动评估是本文要解决的核心问题。

核心思路:论文的核心思路是将教学材料评估问题转化为一个生成式AI任务。具体来说,给定一段教学材料,模型需要根据预定义的评估标准(如EQuIP评估标准)预测该材料在各个评估维度上的得分,并提供支持这些得分的证据或理由。通过将评估过程建模为生成任务,可以充分利用LLM的生成能力,并结合领域知识进行微调,从而提高评估的准确性和可靠性。

技术框架:整体框架包含以下几个主要步骤:1) 数据集构建:构建包含教学材料、评估标准和专家标注的评估得分及理由的数据集SciEval。2) 模型选择:选择主流的大型语言模型(如GPT、Gemini、Llama、Qwen)作为基础模型。3) 模型微调:使用SciEval数据集对选定的LLM进行领域特定微调,使其适应教学材料评估任务。4) 评估:在保留的测试集上评估微调后的模型性能,并与基线模型进行比较。

关键创新:论文的关键创新在于:1) 构建了首个专门用于K-12科学教学材料自动评估的基准数据集SciEval。2) 将教学材料评估问题形式化为生成式AI任务,并探索了利用LLM进行自动评估的可能性。3) 验证了领域特定微调对于提升LLM在教学材料评估任务上的性能的重要性。

关键设计:SciEval数据集包含273个课程级别的教学材料,每个材料都根据EQuIP评估标准的13个维度进行了评估,总共包含3549个评估实例。论文使用了Qwen3模型作为基础模型,并采用了标准的微调方法,即使用SciEval数据集对Qwen3进行训练,优化目标是最小化生成评估得分和理由的损失函数。具体的参数设置和损失函数细节在论文中可能没有详细描述,属于常规的LLM微调技术。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在SciEval数据集上,通过对Qwen3进行领域特定微调,可以在教学材料评估任务上获得高达11%的性能提升。这表明,针对特定领域的LLM微调可以显著提高其在该领域的应用效果。同时,实验也揭示了通用LLM在教学材料评估任务上的局限性,强调了构建领域特定数据集和进行领域微调的重要性。

🎯 应用场景

该研究成果可应用于K-12科学教育领域,辅助教师和教育工作者快速评估教学材料的质量,提高教学资源的利用效率。此外,该方法也可推广到其他学科的教学材料评估,甚至可以应用于其他需要专家评估的领域,例如医疗诊断、法律咨询等。未来,该研究有望促进个性化教育的发展,为学生提供更优质的教学资源。

📄 摘要(原文)

The need to evaluate instructional materials for K-12 science education has become increasingly important, as more educators use generative AI to create instructional materials. However, the review of instructional materials is time-consuming, expertise-intensive, and difficult to scale, motivating interest in automated evaluation approaches. While large language models (LLMs) have shown strong performance on general evaluation tasks, their performance and reliability on instructional materials remain unclear. To address this gap, we formulate Automatic Instructional Materials Evaluation (AIME) as a generative AI task that predicts scores and evidence using the rubric designed by the educator. We create a benchmark dataset and develop baseline models for AIME. First, we curate the first AIME dataset, SciEval, consisting of instructional materials annotated with pedagogy-aligned evaluation scores and evidence-based rationales. Expert annotations achieve high inter-rater reliability, resulting in a dataset of 273 lesson-level instructional materials evaluated across 13 criteria (N=3549) using the EQuIP rubric. Second, we test mainstream LLMs (GPT, Gemini, Llama, and Qwen) on SciEval and find that none achieve strong performance. Then we fine-tune Qwen3 on SciEval. Results on a held-out test set show that domain-aligned fine-tuning can achieve up to 11 percent performance gains, highlighting the importance of domain-specific fine-tuning for AIME and facilitating the use of LLMs in other educational tasks.