LLMs cannot spot math errors, even when allowed to peek into the solution

📄 arXiv: 2509.01395v1 📥 PDF

作者: KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar

分类: cs.CL, cs.AI

发布日期: 2025-09-01

备注: Accepted to EMNLP 2025


💡 一句话要点

LLM难以发现数学解题步骤中的错误,即使允许查看参考答案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学解题 错误检测 元推理 智能教育

📋 核心要点

  1. 现有LLM在识别学生数学解题步骤中的错误方面存在困难,尤其是在定位第一个错误步骤时。
  2. 论文提出生成一个中间修正的学生解答,使其更贴近原始学生的思路,从而辅助LLM定位错误。
  3. 实验表明,该方法能够有效提升LLM在错误定位任务上的性能,表明中间修正解答的有效性。

📝 摘要(中文)

大型语言模型(LLM)在解决数学应用题方面表现出色,但已被证明在元推理任务(例如识别学生解答中的错误)方面存在困难。本文研究了使用两个错误推理数据集VtG和PRM800K定位逐步解答中的第一个错误步骤的挑战。实验表明,即使在提供参考答案的情况下,最先进的LLM也难以定位学生解答中的第一个错误步骤。为此,我们提出了一种生成中间修正学生解答的方法,使其更接近原始学生的解答,从而有助于提高性能。

🔬 方法详解

问题定义:论文旨在解决LLM在数学解题过程中,难以准确识别学生解题步骤中第一个错误的问题。现有方法,即使允许LLM查看参考答案,仍然难以有效定位错误,表明LLM缺乏对学生解题逻辑的理解和推理能力。

核心思路:论文的核心思路是通过生成一个“中间修正学生解答”,该解答在保持学生原始解题思路的基础上,逐步修正错误,从而为LLM提供更易于理解和推理的输入。这种方法旨在弥合LLM与学生解题逻辑之间的差距,提高错误定位的准确性。

技术框架:整体流程包括:1) 输入学生的解题步骤和参考答案;2) 使用LLM生成一个中间修正的学生解答,该解答尽可能贴近学生的原始思路,但修正了已知的错误;3) 将学生的原始解答、中间修正解答和参考答案输入到LLM中,让LLM判断原始解答中的第一个错误步骤。该框架的核心在于中间修正解答的生成。

关键创新:最重要的技术创新点在于引入了“中间修正学生解答”的概念,并利用LLM生成该解答。与直接让LLM判断原始解答的错误相比,这种方法能够更好地利用LLM的生成能力,并使其更专注于错误的定位,而非理解复杂的学生解题逻辑。

关键设计:论文的关键设计在于如何生成高质量的中间修正学生解答。具体的技术细节(如prompt的设计、LLM的选择、生成过程的约束等)在论文中应该有详细描述。此外,损失函数的设计也至关重要,需要确保生成的中间修正解答既能修正错误,又能尽可能地保持与原始学生解答的一致性。

📊 实验亮点

实验结果表明,提出的方法能够显著提升LLM在VtG和PRM800K数据集上的错误定位性能。具体的性能提升幅度需要在论文中查找。与直接使用原始学生解答相比,使用中间修正解答的方法能够更有效地帮助LLM识别错误,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于智能教育系统,自动批改学生的数学作业,并提供个性化的错误反馈。通过准确定位学生的错误步骤,系统可以帮助学生更好地理解错误原因,提高学习效率。此外,该技术还可以应用于其他需要错误检测和纠正的领域,例如代码调试、文本校对等。

📄 摘要(原文)

Large language models (LLMs) demonstrate remarkable performance on math word problems, yet they have been shown to struggle with meta-reasoning tasks such as identifying errors in student solutions. In this work, we investigate the challenge of locating the first error step in stepwise solutions using two error reasoning datasets: VtG and PRM800K. Our experiments show that state-of-the-art LLMs struggle to locate the first error step in student solutions even when given access to the reference solution. To that end, we propose an approach that generates an intermediate corrected student solution, aligning more closely with the original student's solution, which helps improve performance.