Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading

作者: Yoonseok Yang, Minjune Kim, Marlon Rondinelli, Keren Shao

分类: cs.AI, cs.CL, cs.HC, cs.LG

发布日期: 2025-07-02 (更新: 2025-07-07)

备注: 7 pages, 5 figues, 1 table

💡 一句话要点

Pensieve Grader：一个AI驱动的、开箱即用的手写STEM作业自动评分平台

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI辅助评分 手写识别 大型语言模型 STEM教育 人机协作

📋 核心要点

大型STEM课程中，手写开放式答案的评分耗时费力，成为教学效率的瓶颈。
Pensieve平台利用大型语言模型转录学生手写答案，并根据预设评分标准进行自动评估。
实验结果表明，Pensieve能显著减少评分时间，并与人工评分保持高度一致。

📝 摘要（中文）

本文介绍了一个名为Pensieve的AI辅助评分平台（https://www.pensieve.co），旨在解决大型大学STEM课程中手写开放式答案评分的瓶颈问题。Pensieve利用大型语言模型（LLMs）转录和评估学生作业，为教师提供符合评分标准的得分、转录文本和置信度评级。与之前专注于转录或评分标准生成等特定任务的工具不同，Pensieve在一个人机协作界面中支持整个评分流程——从扫描学生提交的作业到最终反馈。Pensieve已在20多所机构的实际课程中部署，并已对超过30万份学生答卷进行了评分。研究结果表明，Pensieve平均可减少65%的评分时间，并且对于高置信度的预测，与教师给出的分数保持95.4%的一致性。

🔬 方法详解

问题定义：当前大型STEM课程中，教师需要花费大量时间批改学生的手写作业，特别是开放式问题。现有的工具通常只关注转录或评分标准生成等单一环节，缺乏对整个评分流程的完整支持，效率提升有限。

核心思路：Pensieve的核心思路是利用大型语言模型（LLMs）强大的文本理解和生成能力，将手写答案转化为机器可读的文本，并根据预定义的评分标准自动进行评估。通过人机协作界面，教师可以审核和修正AI的评分结果，从而提高评分效率和一致性。

技术框架：Pensieve平台包含以下主要模块：1) 图像处理模块，用于扫描和预处理学生提交的手写作业；2) 光学字符识别（OCR）模块，利用LLM将手写文本转换为电子文本；3) 评分模块，基于LLM对转录后的文本进行语义理解和评估，给出符合评分标准的得分和置信度评级；4) 人机协作界面，允许教师查看、编辑和确认AI的评分结果，并提供反馈。

关键创新：Pensieve的关键创新在于其对整个评分流程的全面支持，以及将LLM应用于手写作业自动评分。与以往的工具相比，Pensieve不仅能够自动转录手写文本，还能根据评分标准进行自动评估，并提供人机协作界面，从而显著提高评分效率和一致性。

关键设计：具体的技术细节包括：1) 使用预训练的LLM，并针对手写文本的特点进行微调，以提高OCR的准确率；2) 设计合理的评分标准和提示工程，引导LLM给出符合要求的评分结果；3) 采用置信度评估机制，对AI评分结果进行可信度评估，方便教师优先审核低置信度的结果。

🖼️ 关键图片

📊 实验亮点

Pensieve平台已在超过20所机构的实际课程中部署，并对超过30万份学生答卷进行了评分。实验结果表明，Pensieve平均可减少65%的评分时间。对于高置信度的预测，Pensieve与教师给出的分数保持95.4%的一致性，证明了该平台在提高评分效率和准确性方面的有效性。

🎯 应用场景

Pensieve平台可广泛应用于大学和中小学的STEM课程中，特别是需要批改大量手写作业的场景。该平台能够减轻教师的评分负担，提高评分效率和一致性，使教师能够将更多精力投入到教学和科研中。此外，Pensieve还可以为学生提供及时的反馈，帮助他们更好地理解和掌握知识。

📄 摘要（原文）

Grading handwritten, open-ended responses remains a major bottleneck in large university STEM courses. We introduce Pensieve (https://www.pensieve.co), an AI-assisted grading platform that leverages large language models (LLMs) to transcribe and evaluate student work, providing instructors with rubric-aligned scores, transcriptions, and confidence ratings. Unlike prior tools that focus narrowly on specific tasks like transcription or rubric generation, Pensieve supports the entire grading pipeline-from scanned student submissions to final feedback-within a human-in-the-loop interface. Pensieve has been deployed in real-world courses at over 20 institutions and has graded more than 300,000 student responses. We present system details and empirical results across four core STEM disciplines: Computer Science, Mathematics, Physics, and Chemistry. Our findings show that Pensieve reduces grading time by an average of 65%, while maintaining a 95.4% agreement rate with instructor-assigned grades for high-confidence predictions.

Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理