Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?
作者: Liang Zhang, Yu Fu, Xinyi Jin
分类: cs.AI
发布日期: 2026-03-26
💡 一句话要点
研究表明LLM的数学问题解决能力与其评估学生解题步骤的准确性显著相关
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学问题解决 步骤级评估 自适应教学系统 错误诊断
📋 核心要点
- 现有研究缺乏对LLM数学问题解决能力与其评估学生解题步骤准确性之间关系的深入探讨。
- 该研究通过对比LLM在解题和评估任务中的表现,揭示了二者之间的关联性,并分析了影响评估准确性的因素。
- 实验结果表明,LLM的解题能力越强,其评估学生解题步骤的准确性也越高,但评估任务仍然具有挑战性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于数学教育中,不仅作为问题解决者,还作为学习者推理的评估者。然而,更强的数学问题解决能力是否与更强的步骤级评估性能相关,目前尚不清楚。本研究使用PROCESSBENCH的GSM8K和MATH子集(一个人为注释的基准,用于识别数学推理中最早的错误步骤)来检验这种关系。我们评估了两个基于LLM的数学辅导代理设置,分别使用GPT-4和GPT-5,在相同的数学问题上执行两个独立任务:解决原始问题和评估基准提供的解决方案,通过预测最早的错误步骤。结果显示了一种一致的模型内模式:模型正确解决的数学问题项的评估准确率,显著高于模型错误解决的问题项,并且在两个模型和数据集上都存在统计学上的显著关联。同时,评估仍然比直接解决问题更困难,尤其是在存在错误的解决方案上。这些发现表明,数学问题解决能力支持更强的评估性能,但可靠的步骤级诊断还需要额外的能力,如步骤跟踪、监控和精确的错误定位。该结果对AI支持的自适应教学系统(AIS)在数学教育中进行形成性评估的设计和评估具有重要意义。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在数学问题解决方面的能力与其评估学生解题步骤的准确性之间的关系。现有方法缺乏对这种关系的量化分析,并且没有充分利用LLM进行步骤级的错误诊断。这限制了LLM在自适应教学系统中的应用,无法有效提供个性化的学习反馈。
核心思路:论文的核心思路是,通过让同一个LLM既解决数学问题,又评估给定的解题步骤,然后分析其解题正确率与评估准确率之间的相关性。如果LLM能够正确解决问题,那么它应该也更擅长识别解题步骤中的错误。这种思路基于一个假设:对问题理解的深度会影响错误诊断的准确性。
技术框架:整体框架包含两个主要任务:1) 问题解决:LLM尝试解决给定的数学问题。2) 错误评估:LLM接收一个包含解题步骤的解决方案,并尝试识别最早的错误步骤。这两个任务在相同的数学问题集上进行,并使用不同的LLM实例(GPT-4和GPT-5)。研究使用PROCESSBENCH数据集,该数据集包含人工标注的错误步骤信息,用于评估LLM的评估准确率。
关键创新:该研究的关键创新在于,它直接量化了LLM的数学问题解决能力与其评估学生解题步骤准确性之间的关系。以往的研究主要关注LLM在单一任务上的表现,而忽略了不同能力之间的关联。此外,该研究还强调了步骤级错误诊断的重要性,并指出了LLM在这一方面的局限性。
关键设计:研究使用了GPT-4和GPT-5作为LLM的实例化。评估指标包括问题解决的正确率和错误评估的准确率。研究人员分析了LLM在正确解决的问题和错误解决的问题上的评估准确率差异,并使用统计检验来验证这些差异的显著性。没有提及具体的损失函数或网络结构,因为研究主要关注的是LLM的整体表现,而不是特定模型的内部细节。
🖼️ 关键图片
📊 实验亮点
研究结果表明,LLM在正确解决的数学问题上的评估准确率显著高于错误解决的问题。具体而言,GPT-4和GPT-5在正确解决的问题上的评估准确率明显更高,且这种关联性在统计上是显著的。这表明LLM的解题能力与其评估能力之间存在正相关关系。同时,研究也发现,即使是强大的LLM,在错误评估任务上的表现仍然不如直接解题,尤其是在面对包含错误的解决方案时。
🎯 应用场景
该研究成果可应用于AI辅助的自适应教学系统(AIS),为学生提供个性化的数学学习辅导。通过评估学生的解题步骤,AIS可以识别学生的薄弱环节,并提供针对性的练习和反馈。此外,该研究还可以用于开发更智能的自动评分系统,提高评分的效率和准确性。未来,可以探索如何利用LLM的知识推理能力,生成更详细的解题步骤解释,帮助学生更好地理解数学概念。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used in math education not only as problem solvers but also as assessors of learners' reasoning. However, it remains unclear whether stronger math problem-solving ability is associated with stronger step-level assessment performance. This study examines that relationship using the GSM8K and MATH subsets of PROCESSBENCH, a human-annotated benchmark for identifying the earliest erroneous step in mathematical reasoning. We evaluate two LLM-based math tutor agent settings, instantiated with GPT-4 and GPT-5, in two independent tasks on the same math problems: solving the original problem and assessing a benchmark-provided solution by predicting the earliest erroneous step. Results show a consistent within-model pattern: assessment accuracy is substantially higher on math problem items the same model solved correctly than on items it solved incorrectly, with statistically significant associations across both models and datasets. At the same time, assessment remains more difficult than direct problem solving, especially on error-present solutions. These findings suggest that math problem-solving expertise supports stronger assessment performance, but reliable step-level diagnosis also requires additional capabilities such as step tracking, monitoring, and precise error localization. The results have implications for the design and evaluation of AI-supported Adaptive Instructional Systems (AISs) for formative assessment in math education.