Instructional Goal-Aligned Question Generation for Student Evaluation in Virtual Lab Settings: How Closely Do LLMs Actually Align?

📄 arXiv: 2510.06411v1 📥 PDF

作者: R. Alexander Knipper, Indrani Dey, Souvika Sarkar, Hari Narayanan, Sadhana Puntambekar, Santu Karmaker

分类: cs.CL

发布日期: 2025-10-07


💡 一句话要点

提出教学目标对齐的问题生成框架,利用LLM辅助虚拟实验室学生评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚拟实验室 问题生成 大型语言模型 教学目标对齐 学生评估

📋 核心要点

  1. 现有虚拟实验室教学资源难以与教师的教学目标对齐,定制资源开发成本高昂且难以规模化。
  2. 提出一种教学目标对齐的问题生成框架,通过教师与LLM的交互,生成与虚拟实验模拟对齐的教学问题。
  3. 实验结果表明,该框架能有效提升问题质量、格式一致性和可解析性,尤其是在大型LLM上表现更佳。

📝 摘要(中文)

虚拟实验室为动手实践、探究式科学学习提供了宝贵机会,但教师常常难以使其适应教学目标。第三方材料可能与课堂需求不符,而开发定制资源既耗时又难以扩展。大型语言模型(LLM)的最新进展为解决这些限制提供了一条有希望的途径。本文介绍了一种新颖的教学目标对齐的问题生成框架,使教师能够通过自然语言交互,利用LLM生成与模拟对齐、具有教学意义的问题。该框架集成了四个组成部分:通过教师-LLM对话理解教学目标,通过知识单元和关系分析理解实验室,用于构建认知和教学意图的问题分类法,以及用于控制提示细节的TELeR分类法。早期设计选择由小型教师辅助案例研究提供信息,而我们的最终评估分析了来自19个开源LLM的1100多个问题。通过将目标和实验室理解置于教师意图和模拟上下文中,问题分类法提高了认知需求(开放式格式和关系类型将质量提高了0.29-0.39分),并且优化的TELeR提示增强了格式一致性(80%的可解析性,>90%的一致性)。更大的模型产生了最强的增益:可解析性+37.1%,一致性+25.7%,平均质量+0.8李克特点。

🔬 方法详解

问题定义:论文旨在解决虚拟实验室环境中,教师难以获取与教学目标对齐的学生评估问题的问题。现有方法要么依赖于通用的第三方资源,这些资源通常与特定的教学目标不匹配,要么需要教师手动创建评估材料,这既耗时又难以扩展,尤其是在需要针对不同实验场景进行定制时。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,通过一个精心设计的框架,引导LLM生成与教师教学目标和虚拟实验室内容对齐的问题。该框架通过明确教师的教学意图,理解实验室的知识结构,并结合问题分类法来控制问题的认知难度和类型,从而确保生成的问题具有教学意义和评估价值。

技术框架:该框架包含四个主要组成部分:1) 教学目标理解:通过教师与LLM的自然语言对话,明确教师的教学目标。2) 实验室理解:通过知识单元和关系分析,理解虚拟实验室的内容和结构。3) 问题分类法:用于结构化认知和教学意图,指导问题生成。4) TELeR分类法:用于控制提示的详细程度,优化LLM的生成效果。整个流程是教师首先与LLM交互明确教学目标,然后框架分析实验室内容,结合问题分类法和TELeR提示,引导LLM生成问题。

关键创新:该论文的关键创新在于提出了一个完整的、可操作的框架,将教师的教学目标、虚拟实验室的内容和LLM的生成能力结合起来,实现了教学目标对齐的问题自动生成。与以往的研究相比,该框架更加注重教学意图的融入和对问题认知难度的控制,从而生成更具教学价值的评估问题。

关键设计:TELeR分类法是关键设计之一,它用于控制提示的详细程度,从而影响LLM的生成效果。问题分类法的设计也至关重要,它定义了问题的类型和认知难度,指导LLM生成不同层次的问题。此外,论文还通过实验探索了不同大小的LLM在该框架下的表现,并优化了提示工程,以提高生成问题的质量和一致性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该框架能有效提升问题质量,开放式和关系型问题将质量提高了0.29-0.39分。优化的TELeR提示增强了格式一致性,达到80%的可解析性和>90%的一致性。更大的模型表现更佳,可解析性提升37.1%,一致性提升25.7%,平均质量提升0.8李克特点。

🎯 应用场景

该研究成果可广泛应用于虚拟实验室、在线教育平台等领域,帮助教师快速生成与教学目标对齐的学生评估材料,减轻教师的备课负担,提升教学效率和质量。未来,该框架可以扩展到其他学科和教学场景,实现更智能化的教学资源生成。

📄 摘要(原文)

Virtual Labs offer valuable opportunities for hands-on, inquiry-based science learning, yet teachers often struggle to adapt them to fit their instructional goals. Third-party materials may not align with classroom needs, and developing custom resources can be time-consuming and difficult to scale. Recent advances in Large Language Models (LLMs) offer a promising avenue for addressing these limitations. In this paper, we introduce a novel alignment framework for instructional goal-aligned question generation, enabling teachers to leverage LLMs to produce simulation-aligned, pedagogically meaningful questions through natural language interaction. The framework integrates four components: instructional goal understanding via teacher-LLM dialogue, lab understanding via knowledge unit and relationship analysis, a question taxonomy for structuring cognitive and pedagogical intent, and the TELeR taxonomy for controlling prompt detail. Early design choices were informed by a small teacher-assisted case study, while our final evaluation analyzed over 1,100 questions from 19 open-source LLMs. With goal and lab understanding grounding questions in teacher intent and simulation context, the question taxonomy elevates cognitive demand (open-ended formats and relational types raise quality by 0.29-0.39 points), and optimized TELeR prompts enhance format adherence (80% parsability, >90% adherence). Larger models yield the strongest gains: parsability +37.1%, adherence +25.7%, and average quality +0.8 Likert points.