Seeing the Big Picture: Evaluating Multimodal LLMs' Ability to Interpret and Grade Handwritten Student Work
作者: Owen Henkel, Bill Roberts, Doug Jaffe, Laurence Holt
分类: cs.CV, cs.AI
发布日期: 2025-10-07
💡 一句话要点
评估多模态LLM对手写学生作业的理解和评分能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 手写识别 自动评分 教育应用
📋 核心要点
- 手写数学作业的自动评分具有重要意义,但现有方法难以有效处理学生解题步骤和图示。
- 该研究探索了多模态LLM在理解和评分手写数学作业方面的能力,并分析了其局限性。
- 实验表明,MLLM在客观算术题上表现良好,但在理解和评估数学图示方面仍有提升空间。
📝 摘要(中文)
多模态大型语言模型(MLLM)的最新进展引发了它们在手写学生作业的评分、分析和提供反馈方面的潜力问题。这种能力在中小学数学教育中尤其有益,因为大多数作业仍然是手写的,看到学生解决问题的完整过程可以为了解他们的学习过程提供有价值的见解,但评分非常耗时。我们提出了两个实验,研究MLLM在手写学生数学作业上的表现。实验A检查了来自加纳中学生的288份手写答卷,这些学生解决的是有客观答案的算术题。在这种情况下,模型达到了接近人类的准确率(95%,k = 0.90),但偶尔会出现人类教育工作者不太可能犯的错误。实验B评估了来自美国小学生的150幅数学插图,这些图画是问题的答案。这些任务缺乏单一的客观答案,需要复杂的视觉解释以及教学判断才能进行分析和评估。我们试图通过首先要求MLLM直接对学生插图进行评分,然后通过用详细的人工描述来增强图像,从而将MLLM的视觉能力与教学能力分开。我们发现,当模型必须直接分析学生插图时,它们表现不佳,与真实分数的kappa系数仅为0.20,但当给出人工描述时,它们的一致性水平显著提高到0.47,这与人与人之间的一致性水平一致。这种差距表明,MLLM可以相对较好地“看到”和解释算术作业,但在“看到”学生数学插图方面仍然存在困难。
🔬 方法详解
问题定义:该论文旨在评估多模态大型语言模型(MLLM)在理解和评分手写学生数学作业方面的能力。现有方法在处理手写作业时面临挑战,尤其是在理解学生的解题步骤和图示方面,这需要更高级的视觉理解和推理能力。人工评分耗时且成本高昂,因此自动评分系统具有重要价值。
核心思路:论文的核心思路是将MLLM应用于手写数学作业的自动评分,并分析其在不同类型题目上的表现。通过对比MLLM在客观算术题和主观图示题上的表现,研究人员试图区分MLLM的视觉能力和教学判断能力。此外,通过提供人工描述来增强图像信息,以评估MLLM在视觉理解方面的局限性。
技术框架:该研究采用了两个实验来评估MLLM的性能。实验A使用来自加纳中学生的288份手写算术答卷,这些题目具有客观答案。实验B使用来自美国小学生的150幅数学插图,这些图画是问题的答案,需要主观评估。对于实验B,研究人员首先直接使用MLLM对插图进行评分,然后提供人工描述来增强图像信息,并再次进行评分。通过对比两种情况下的评分结果,评估MLLM的视觉理解能力。
关键创新:该研究的关键创新在于评估了MLLM在理解和评分手写学生数学作业方面的能力,并区分了MLLM的视觉能力和教学判断能力。通过提供人工描述来增强图像信息,研究人员能够更清晰地了解MLLM在视觉理解方面的局限性。此外,该研究还探讨了MLLM在不同类型题目上的表现差异,为未来的研究提供了有价值的见解。
关键设计:实验A使用客观算术题来评估MLLM的评分准确率,并与人工评分进行对比。实验B使用主观图示题来评估MLLM的视觉理解能力,并通过提供人工描述来增强图像信息。研究人员使用Kappa系数来衡量MLLM与人工评分之间的一致性。没有提及具体的参数设置、损失函数或网络结构,因为重点在于评估现有MLLM的能力,而不是提出新的模型。
📊 实验亮点
实验A表明,MLLM在客观算术题上达到了接近人类的准确率(95%,k = 0.90)。实验B表明,当直接分析学生插图时,MLLM表现不佳(k = 0.20),但当给出人工描述时,一致性水平显著提高(k = 0.47),与人与人之间的一致性水平相当。这表明MLLM在视觉理解方面仍有提升空间。
🎯 应用场景
该研究成果可应用于开发自动化的手写作业评分系统,特别是在中小学数学教育领域。该系统可以减轻教师的评分负担,提供及时的反馈,并帮助教师更好地了解学生的学习过程。此外,该研究还可以促进多模态LLM在教育领域的应用,例如个性化学习和智能辅导。
📄 摘要(原文)
Recent advances in multimodal large language models (MLLMs) raise the question of their potential for grading, analyzing, and offering feedback on handwritten student classwork. This capability would be particularly beneficial in elementary and middle-school mathematics education, where most work remains handwritten, because seeing students' full working of a problem provides valuable insights into their learning processes, but is extremely time-consuming to grade. We present two experiments investigating MLLM performance on handwritten student mathematics classwork. Experiment A examines 288 handwritten responses from Ghanaian middle school students solving arithmetic problems with objective answers. In this context, models achieved near-human accuracy (95%, k = 0.90) but exhibited occasional errors that human educators would be unlikely to make. Experiment B evaluates 150 mathematical illustrations from American elementary students, where the drawings are the answer to the question. These tasks lack single objective answers and require sophisticated visual interpretation as well as pedagogical judgment in order to analyze and evaluate them. We attempted to separate MLLMs' visual capabilities from their pedagogical abilities by first asking them to grade the student illustrations directly, and then by augmenting the image with a detailed human description of the illustration. We found that when the models had to analyze the student illustrations directly, they struggled, achieving only k = 0.20 with ground truth scores, but when given human descriptions, their agreement levels improved dramatically to k = 0.47, which was in line with human-to-human agreement levels. This gap suggests MLLMs can "see" and interpret arithmetic work relatively well, but still struggle to "see" student mathematical illustrations.