LEMMA: Learning from Errors for MatheMatical Advancement in LLMs
作者: Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu
分类: cs.LG, cs.AI
发布日期: 2025-03-21 (更新: 2025-05-30)
备注: ACL'25 Findings, Code is available at https://github.com/pzs19/LEMMA
💡 一句话要点
LEMMA:通过从错误中学习提升LLM的数学推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学推理 错误学习 自我纠错 数据增强 微调 反思学习
📋 核心要点
- 现有LLM数学推理方法侧重于高质量正确数据,忽略了错误数据中的价值,限制了模型的反思和纠错能力。
- LEMMA通过构建包含错误解、错误步骤以及与正确解反思连接的数据集,使LLM能够从错误中学习并自我纠正。
- 实验表明,在构建的数据集上微调后,LEMMA显著提升了LLM在数学问题上的推理性能,优于其他基线方法。
📝 摘要(中文)
大型语言模型(LLM)在解决数学问题方面表现出卓越的推理能力。然而,现有方法主要集中于提高正确训练数据的质量,例如从高级模型中提炼高质量的正确解,而忽略了错误数据中包含的价值,这可能会阻碍模型的反思能力。虽然一些研究试图利用错误数据,但它们通常涉及复杂的机制,例如蒙特卡洛树搜索(MCTS)来探索错误节点。在这项工作中,我们提出通过从错误中学习来增强LLM的推理能力,即数学进步的LEMMA(Learning from Errors for MatheMatical Advancement)。LEMMA构建的数据包括一个带有错误步骤的错误解,以及一个与正确解的反思连接,用于微调。具体来说,我们系统地分析了模型生成的错误类型,并引入了一种基于错误类型的错误增强方法来收集多样且具有代表性的错误。正确的解要么来自修复错误,要么来自重新开始。通过模型感知的平滑反思连接,错误的解被转移到正确的解。通过在构建的数据集上进行微调,模型能够在生成过程中自主地自我纠正错误,而无需依赖外部评论模型。实验结果表明,LEMMA相对于其他强大的基线实现了显著的性能提升。
🔬 方法详解
问题定义:论文旨在解决LLM在数学问题求解中,由于忽略错误数据价值而导致的推理能力不足的问题。现有方法主要关注正确解的学习,缺乏对错误解的分析和利用,导致模型难以识别和纠正自身错误。
核心思路:LEMMA的核心思路是通过让LLM学习错误解及其与正确解之间的关联,从而提升模型的自我纠错能力。具体而言,LEMMA构建包含错误解、错误步骤和反思连接的数据集,使模型能够理解错误的原因并学习如何从错误中恢复。
技术框架:LEMMA的技术框架主要包括三个阶段:1) 错误类型分析:系统分析LLM生成的错误类型,为后续的错误增强提供指导。2) 错误增强:引入基于错误类型的错误增强方法,生成多样且具有代表性的错误解。3) 反思连接:通过模型感知的平滑反思连接,将错误解与对应的正确解关联起来。然后,使用构建的数据集对LLM进行微调。
关键创新:LEMMA的关键创新在于其系统性地利用错误数据来提升LLM的推理能力。与以往侧重于正确数据或使用复杂机制(如MCTS)探索错误节点的方法不同,LEMMA通过错误类型分析和反思连接,使模型能够直接学习错误解的特征和纠正方法。
关键设计:LEMMA的关键设计包括:1) 错误类型分析方法,用于识别常见的数学问题求解错误。2) 基于错误类型的错误增强策略,确保生成多样化的错误解。3) 模型感知的平滑反思连接,用于建立错误解和正确解之间的关联。具体实现细节(如参数设置、损失函数等)在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LEMMA在数学问题求解任务上取得了显著的性能提升,优于其他强大的基线方法。具体的性能数据和提升幅度在摘要中有所提及,但未提供详细的数值结果。LEMMA证明了从错误中学习对于提升LLM推理能力的重要性。
🎯 应用场景
LEMMA方法具有广泛的应用前景,可用于提升LLM在数学、科学、工程等领域的推理能力。通过让模型从错误中学习,可以提高其解决复杂问题的可靠性和准确性。此外,该方法还可以应用于教育领域,帮助学生更好地理解和纠正错误。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model's reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs' reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.