Toward LLM-Supported Automated Assessment of Critical Thinking Subskills
作者: Marisa C. Peczuh, Nischal Ashok Kumar, Ryan Baker, Blair Lehman, Danielle Eisenberg, Caitlin Mills, Keerthi Chebrolu, Sudhip Nashi, Cadence Young, Brayden Liu, Sherry Lachman, Andrew Lan
分类: cs.CY, cs.CL, cs.LG
发布日期: 2025-10-14
备注: preprint: 17 pages
💡 一句话要点
利用大语言模型自动评估学生批判性思维子技能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 批判性思维评估 大语言模型 自动评分 少样本学习 教育分析
📋 核心要点
- 现有学习分析社区在批判性思维的定义、测量和支持方面的工作不足,难以有效培养学生的批判性思维能力。
- 本文提出利用大语言模型自动评估学生议论文中的批判性思维子技能,旨在实现对高阶推理技能的可扩展评估。
- 实验结果表明,GPT-5在少样本提示下表现最佳,但在处理细微差别或罕见类别时性能有所下降。
📝 摘要(中文)
批判性思维是当今教育领域的一项基本能力。通过及时的评估和反馈来培养批判性思维技能至关重要。然而,学习分析社区在定义、衡量和支持批判性思维方面的工作还不够深入。本文探讨了衡量构成批判性思维核心的“子技能”的可行性。我们的工作基于学生运用批判性思维的真实任务:学生撰写的议论文。我们基于已建立的技能发展体系开发了一个编码规则,并对学生论文语料库完成了人工编码。然后,我们评估了三种不同的自动评分方法:零样本提示、少样本提示和监督微调,并在三种大型语言模型(GPT-5、GPT-5-mini 和 ModernBERT)上实施。GPT-5 在少样本提示下取得了最好的结果,并在具有可分离、频繁类别的子技能上表现出特别的优势,而对于需要检测细微差别或罕见类别的子技能,则观察到较低的性能。我们的结果强调了自动批判性思维评估中的关键权衡:专有模型以更高的成本提供卓越的可靠性,而开源替代方案以降低对少数类别敏感性的代价提供实际的准确性。我们的工作代表了在真实的教育环境中对高阶推理技能进行可扩展评估的初步尝试。
🔬 方法详解
问题定义:本文旨在解决如何自动评估学生批判性思维子技能的问题。现有方法依赖于人工评估,成本高昂且难以规模化。此外,现有方法在检测细微差别和罕见类别方面存在局限性。
核心思路:本文的核心思路是利用大语言模型(LLM)的强大语言理解和生成能力,通过不同的提示策略和微调方法,实现对学生议论文中批判性思维子技能的自动评分。通过将批判性思维分解为可衡量的子技能,并利用LLM进行评估,可以实现更高效、更可扩展的评估方法。
技术框架:该研究的技术框架包括以下几个主要阶段:1) 基于已建立的技能发展体系,开发用于评估学生议论文的编码规则;2) 对学生论文语料库进行人工编码,作为LLM训练和评估的ground truth;3) 采用三种不同的自动评分方法:零样本提示、少样本提示和监督微调;4) 在三种大型语言模型(GPT-5、GPT-5-mini 和 ModernBERT)上实施这些方法;5) 评估不同方法和模型在不同批判性思维子技能上的性能。
关键创新:本文的关键创新在于探索了利用不同类型的大语言模型和不同的提示/微调策略来自动评估批判性思维子技能的可行性。通过对比专有模型(GPT-5)和开源模型(ModernBERT)的性能,揭示了在成本、可靠性和对少数类别的敏感性之间的权衡。
关键设计:在少样本提示中,使用了人工编码的论文作为示例,以引导LLM进行评分。在监督微调中,使用了人工编码的论文作为训练数据,对LLM进行微调。针对不同的批判性思维子技能,采用了不同的提示语和微调策略,以优化LLM的性能。
📊 实验亮点
实验结果表明,GPT-5在少样本提示下取得了最佳性能,尤其在具有可分离、频繁类别的子技能上表现出色。然而,对于需要检测细微差别或罕见类别的子技能,性能有所下降。研究还发现,专有模型(GPT-5)在可靠性方面优于开源模型(ModernBERT),但成本更高,且对少数类别的敏感性更强。
🎯 应用场景
该研究成果可应用于大规模在线教育平台,为学生提供个性化的批判性思维能力评估和反馈,辅助教师进行教学调整。此外,该方法还可以扩展到其他高阶认知技能的评估,例如问题解决能力和创新能力,从而推动教育领域的智能化发展。
📄 摘要(原文)
Critical thinking represents a fundamental competency in today's education landscape. Developing critical thinking skills through timely assessment and feedback is crucial; however, there has not been extensive work in the learning analytics community on defining, measuring, and supporting critical thinking. In this paper, we investigate the feasibility of measuring core "subskills" that underlie critical thinking. We ground our work in an authentic task where students operationalize critical thinking: student-written argumentative essays. We developed a coding rubric based on an established skills progression and completed human coding for a corpus of student essays. We then evaluated three distinct approaches to automated scoring: zero-shot prompting, few-shot prompting, and supervised fine-tuning, implemented across three large language models (GPT-5, GPT-5-mini, and ModernBERT). GPT-5 with few-shot prompting achieved the strongest results and demonstrated particular strength on subskills with separable, frequent categories, while lower performance was observed for subskills that required detection of subtle distinctions or rare categories. Our results underscore critical trade-offs in automated critical thinking assessment: proprietary models offer superior reliability at higher cost, while open-source alternatives provide practical accuracy with reduced sensitivity to minority categories. Our work represents an initial step toward scalable assessment of higher-order reasoning skills across authentic educational contexts.