Small, Private Language Models as Teammates for Educational Assessment Design

📄 arXiv: 2605.15015v1 📥 PDF

作者: Chris Davis Jaldi, Anmol Saini, Shan Zhang, Noah Schroeder, Cogan Shimizu, Eleni Ilkou

分类: cs.AI, cs.CL, cs.HC

发布日期: 2026-05-14


💡 一句话要点

利用小型私有语言模型作为队友,辅助教育评估设计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 教育评估设计 Bloom分类法 自动问题生成 人机协作

📋 核心要点

  1. 现有大型语言模型在教育评估设计中存在评估方法主观、依赖专有模型、缺乏实际部署考量等不足。
  2. 论文提出利用小型语言模型(SLM)作为本地化、隐私友好的替代方案,探索其在教育评估问题设计中的潜力。
  3. 实验表明,SLM在关键教学质量维度上表现出与LLM相当的性能,但模型评估与专家评估存在偏差,需人机协作。

📝 摘要(中文)

生成式AI越来越多地支持教育设计任务,例如通过大型语言模型(LLM)设计与教学框架(如Bloom分类法)对齐的评估问题。然而,它们通常依赖于主观或有限的评估方法;主要关注专有模型;或者很少系统地检查实际教育环境中的生成、评估或部署约束。与此同时,小型语言模型(SLM)作为本地替代方案出现,更好地解决了隐私和资源限制;然而,它们在评估任务中的有效性仍未得到充分探索。为了弥补这一差距,我们系统地比较了LLM和SLM在评估问题设计方面的表现;使用可重复的、基于教学法的指标评估了Bloom分类法各级别的生成质量;并通过分析可靠性和一致性模式,进一步评估了基于模型的判断与专家评估的一致性。结果表明,SLM在关键的教学驱动的质量维度上实现了具有竞争力的性能,同时实现了本地的、隐私敏感的部署。然而,基于模型的评估也表现出相对于专家评级的系统性不一致和偏差。这些发现为将语言模型定位为评估工作流程中的有限助手提供了证据;强调了人机协作的必要性;并通过检查质量、可靠性和部署感知的权衡,推进了自动教育问题生成领域。

🔬 方法详解

问题定义:论文旨在解决教育评估设计中,大型语言模型(LLM)存在的隐私问题、资源消耗以及评估方法的主观性问题。现有方法依赖于大型的、通常是专有的模型,难以在资源受限的环境中部署,并且缺乏对生成质量的客观、可复现的评估指标。

核心思路:论文的核心思路是探索小型语言模型(SLM)在教育评估问题设计中的可行性,并建立一套可复现的、基于教学法的评估指标来衡量生成质量。通过对比SLM和LLM的性能,以及模型评估与专家评估的一致性,来确定SLM在教育评估设计中的定位和价值。

技术框架:论文的技术框架主要包括三个部分:1) 使用LLM和SLM生成评估问题;2) 使用可复现的、基于教学法的指标评估生成质量,这些指标涵盖Bloom分类法的各个层次;3) 将模型评估结果与专家评估结果进行对比,分析可靠性和一致性模式。

关键创新:论文的关键创新在于:1) 系统性地比较了LLM和SLM在教育评估问题设计中的性能;2) 提出了一套可复现的、基于教学法的评估指标,用于衡量生成质量;3) 深入分析了模型评估与专家评估之间的差异,揭示了模型评估的局限性。

关键设计:论文的关键设计包括:1) 选择了具有代表性的LLM和SLM进行对比实验;2) 设计了涵盖Bloom分类法各个层次的评估指标,例如,事实性问题、概念性问题、程序性问题和元认知问题;3) 采用了多种统计方法来分析模型评估与专家评估之间的一致性,例如,Inter-rater reliability (IRR) 和 Cohen's Kappa。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,小型语言模型(SLM)在关键的教学驱动的质量维度上实现了与大型语言模型(LLM)具有竞争力的性能,同时实现了本地的、隐私敏感的部署。然而,模型评估与专家评级之间存在系统性不一致和偏差,表明需要人机协作。

🎯 应用场景

该研究成果可应用于开发本地化、隐私友好的教育评估工具,辅助教师进行试题设计和评估。通过人机协作,可以提高评估设计的效率和质量,并为个性化学习提供支持。未来,可以将该方法推广到其他教育领域,例如课程设计和教学资源生成。

📄 摘要(原文)

Generative AI increasingly supports educational design tasks, e.g., through Large Language Models (LLMs), demonstrating the capability to design assessment questions that are aligned with pedagogical frameworks (e.g., Bloom's taxonomy). However, they often rely on subjective or limited evaluation methods; focus primarily on proprietary models; or rarely systematically examine generation, evaluation, or deployment constraints in real educational settings. Meanwhile, Small Language Models (SLMs) have emerged as local alternatives that better address privacy and resource limitations; yet their effectiveness for assessment tasks remains underexplored. To address this gap, we systematically compare LLMs and SLMs for assessment question design; evaluate generation quality across Bloom's taxonomy levels using reproducible, pedagogically grounded metrics; and further assess model-based judging against expert-informed evaluation by analyzing reliability and agreement patterns. Results show that SLMs achieve competitive performance across key pedagogically motivated quality dimensions while enabling local, privacy-sensitive deployment. However, model-based evaluations also exhibit systematic inconsistencies and bias relative to expert ratings. These findings provide evidence to posit language models as bounded assistants in assessment workflows; underscore the necessity of Human-in-the-Loop; and advance the automated educational question generation field by examining quality, reliability, and deployment-aware trade-offs.