Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading
作者: Yoonseok Yang, Minjune Kim, Marlon Rondinelli, Keren Shao
分类: cs.AI, cs.CL, cs.HC, cs.LG
发布日期: 2025-07-02 (更新: 2025-07-07)
备注: 7 pages, 5 figues, 1 table
💡 一句话要点
Pensieve Grader:一个AI驱动的、开箱即用的手写STEM作业自动评分平台
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI辅助评分 手写识别 大型语言模型 STEM教育 人机协作
📋 核心要点
- 大型STEM课程中,手写开放式答案的评分耗时费力,成为教学效率的瓶颈。
- Pensieve平台利用大型语言模型转录学生手写答案,并根据预设评分标准进行自动评估。
- 实验结果表明,Pensieve能显著减少评分时间,并与人工评分保持高度一致。
📝 摘要(中文)
本文介绍了一个名为Pensieve的AI辅助评分平台(https://www.pensieve.co),旨在解决大型大学STEM课程中手写开放式答案评分的瓶颈问题。Pensieve利用大型语言模型(LLMs)转录和评估学生作业,为教师提供符合评分标准的得分、转录文本和置信度评级。与之前专注于转录或评分标准生成等特定任务的工具不同,Pensieve在一个人机协作界面中支持整个评分流程——从扫描学生提交的作业到最终反馈。Pensieve已在20多所机构的实际课程中部署,并已对超过30万份学生答卷进行了评分。研究结果表明,Pensieve平均可减少65%的评分时间,并且对于高置信度的预测,与教师给出的分数保持95.4%的一致性。
🔬 方法详解
问题定义:当前大型STEM课程中,教师需要花费大量时间批改学生的手写作业,特别是开放式问题。现有的工具通常只关注转录或评分标准生成等单一环节,缺乏对整个评分流程的完整支持,效率提升有限。
核心思路:Pensieve的核心思路是利用大型语言模型(LLMs)强大的文本理解和生成能力,将手写答案转化为机器可读的文本,并根据预定义的评分标准自动进行评估。通过人机协作界面,教师可以审核和修正AI的评分结果,从而提高评分效率和一致性。
技术框架:Pensieve平台包含以下主要模块:1) 图像处理模块,用于扫描和预处理学生提交的手写作业;2) 光学字符识别(OCR)模块,利用LLM将手写文本转换为电子文本;3) 评分模块,基于LLM对转录后的文本进行语义理解和评估,给出符合评分标准的得分和置信度评级;4) 人机协作界面,允许教师查看、编辑和确认AI的评分结果,并提供反馈。
关键创新:Pensieve的关键创新在于其对整个评分流程的全面支持,以及将LLM应用于手写作业自动评分。与以往的工具相比,Pensieve不仅能够自动转录手写文本,还能根据评分标准进行自动评估,并提供人机协作界面,从而显著提高评分效率和一致性。
关键设计:具体的技术细节包括:1) 使用预训练的LLM,并针对手写文本的特点进行微调,以提高OCR的准确率;2) 设计合理的评分标准和提示工程,引导LLM给出符合要求的评分结果;3) 采用置信度评估机制,对AI评分结果进行可信度评估,方便教师优先审核低置信度的结果。
🖼️ 关键图片
📊 实验亮点
Pensieve平台已在超过20所机构的实际课程中部署,并对超过30万份学生答卷进行了评分。实验结果表明,Pensieve平均可减少65%的评分时间。对于高置信度的预测,Pensieve与教师给出的分数保持95.4%的一致性,证明了该平台在提高评分效率和准确性方面的有效性。
🎯 应用场景
Pensieve平台可广泛应用于大学和中小学的STEM课程中,特别是需要批改大量手写作业的场景。该平台能够减轻教师的评分负担,提高评分效率和一致性,使教师能够将更多精力投入到教学和科研中。此外,Pensieve还可以为学生提供及时的反馈,帮助他们更好地理解和掌握知识。
📄 摘要(原文)
Grading handwritten, open-ended responses remains a major bottleneck in large university STEM courses. We introduce Pensieve (https://www.pensieve.co), an AI-assisted grading platform that leverages large language models (LLMs) to transcribe and evaluate student work, providing instructors with rubric-aligned scores, transcriptions, and confidence ratings. Unlike prior tools that focus narrowly on specific tasks like transcription or rubric generation, Pensieve supports the entire grading pipeline-from scanned student submissions to final feedback-within a human-in-the-loop interface. Pensieve has been deployed in real-world courses at over 20 institutions and has graded more than 300,000 student responses. We present system details and empirical results across four core STEM disciplines: Computer Science, Mathematics, Physics, and Chemistry. Our findings show that Pensieve reduces grading time by an average of 65%, while maintaining a 95.4% agreement rate with instructor-assigned grades for high-confidence predictions.