Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math
作者: Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen
分类: cs.AI, cs.CL, cs.CV
发布日期: 2026-03-26
备注: Accepted by the 27th International Conference on Artificial Intelligence in Education (AIED'26)
💡 一句话要点
提出 ScratchMath 基准,用于多模态大语言模型分析手写数学错误
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 手写数学识别 错误分析 教育应用 大语言模型
📋 核心要点
- 现有教育NLP侧重文本,忽略手写草稿的多模态复杂性,且MLLM常以“应试者视角”生成答案,忽略错误诊断。
- 提出 ScratchMath 基准,包含1720个手写数学样本,支持错误原因解释(ECE)和错误原因分类(ECC)两个任务。
- 评估16个MLLM,发现其在视觉识别和逻辑推理方面与人类专家存在显著差距,专有模型优于开源模型。
📝 摘要(中文)
评估学生手写草稿对于个性化教育反馈至关重要,但由于笔迹多样、布局复杂和解题方法各异而面临独特的挑战。现有的教育自然语言处理主要关注文本回复,忽略了真实手写草稿中固有的复杂性和多模态性。目前的多模态大型语言模型(MLLM)擅长视觉推理,但通常采用“应试者视角”,优先生成正确答案而不是诊断学生错误。为了弥合这些差距,我们引入了 ScratchMath,这是一个专门为解释和分类真实手写数学草稿中的错误而设计的新基准。我们的数据集包含来自中国中小学生的 1,720 个数学样本,支持两个关键任务:错误原因解释(ECE)和错误原因分类(ECC),并定义了七种错误类型。该数据集通过严格的人机协作方法精心标注,包括专家标注、审查和验证的多个阶段。我们系统地评估了 ScratchMath 上的 16 个领先的 MLLM,揭示了相对于人类专家而言,在视觉识别和逻辑推理方面存在显着的性能差距。专有模型明显优于开源模型,大型推理模型显示出强大的错误解释潜力。所有评估数据和框架均可公开获取,以促进进一步研究。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在理解和诊断学生手写数学草稿中错误的能力不足的问题。现有方法主要集中于文本分析,忽略了手写草稿的视觉信息和复杂的推理过程。此外,现有的MLLM通常以“应试者视角”为导向,侧重于生成正确答案,而缺乏对学生错误原因的深入分析能力。
核心思路:论文的核心思路是构建一个专门用于评估MLLM在手写数学错误分析能力上的基准数据集 ScratchMath。通过该数据集,可以系统地评估MLLM在理解手写内容、识别错误类型、解释错误原因等方面的性能。同时,论文强调了从“学生视角”出发,让模型能够理解学生的解题思路和错误逻辑。
技术框架:ScratchMath 基准数据集的构建流程主要包括以下几个阶段:1) 数据收集:收集来自中国中小学生的真实手写数学草稿;2) 错误类型定义:定义了七种常见的数学错误类型;3) 数据标注:采用人机协作的方式,由专家对每个样本进行错误类型标注和错误原因解释;4) 数据验证:对标注结果进行多轮审查和验证,确保标注质量。基于该数据集,论文对16个主流MLLM进行了系统评估,并分析了它们在不同任务上的表现。
关键创新:论文的关键创新在于:1) 提出了一个专门针对手写数学错误分析的多模态基准数据集 ScratchMath;2) 强调了从“学生视角”出发,评估MLLM的错误诊断能力;3) 采用人机协作的方式,保证了数据集的标注质量。与现有方法相比,ScratchMath 更加关注手写草稿的视觉信息和学生的解题过程,能够更全面地评估MLLM的教育应用潜力。
关键设计:ScratchMath 数据集包含 1720 个样本,涵盖了中小学数学的各种题型。数据集支持两个主要任务:错误原因解释(ECE)和错误原因分类(ECC)。错误类型定义包括计算错误、概念理解错误、逻辑推理错误等七种常见类型。在数据标注过程中,采用了多轮专家标注、审查和验证机制,以确保标注的准确性和一致性。评估指标包括准确率、召回率、F1 值等,用于衡量 MLLM 在错误分类和解释任务上的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有 MLLM 在 ScratchMath 基准上的表现与人类专家存在显著差距,尤其是在视觉识别和逻辑推理方面。专有模型(如 GPT-4)的性能优于开源模型,但仍有很大的提升空间。大型推理模型在错误解释任务上表现出较强的潜力,但仍需进一步优化。
🎯 应用场景
该研究成果可应用于智能教育领域,例如自动批改作业、个性化辅导、错题本生成等。通过分析学生的手写草稿,可以更准确地识别学生的知识薄弱点,并提供针对性的学习建议。此外,该研究还可以促进多模态大语言模型在教育领域的应用,提升教育的智能化水平。
📄 摘要(原文)
Assessing student handwritten scratchwork is crucial for personalized educational feedback but presents unique challenges due to diverse handwriting, complex layouts, and varied problem-solving approaches. Existing educational NLP primarily focuses on textual responses and neglects the complexity and multimodality inherent in authentic handwritten scratchwork. Current multimodal large language models (MLLMs) excel at visual reasoning but typically adopt an "examinee perspective", prioritizing generating correct answers rather than diagnosing student errors. To bridge these gaps, we introduce ScratchMath, a novel benchmark specifically designed for explaining and classifying errors in authentic handwritten mathematics scratchwork. Our dataset comprises 1,720 mathematics samples from Chinese primary and middle school students, supporting two key tasks: Error Cause Explanation (ECE) and Error Cause Classification (ECC), with seven defined error types. The dataset is meticulously annotated through rigorous human-machine collaborative approaches involving multiple stages of expert labeling, review, and verification. We systematically evaluate 16 leading MLLMs on ScratchMath, revealing significant performance gaps relative to human experts, especially in visual recognition and logical reasoning. Proprietary models notably outperform open-source models, with large reasoning models showing strong potential for error explanation. All evaluation data and frameworks are publicly available to facilitate further research.