Get an A in Math: Progressive Rectification Prompting

📄 arXiv: 2312.06867v1 📥 PDF

作者: Zhenyu Wu, Meng Jiang, Chao Shen

分类: cs.CL

发布日期: 2023-12-11

备注: AAAI 2024 - Camera Ready

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出渐进式修正提示(PRP)方法,显著提升LLM在数学应用题上的解题精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学应用题 思维链 提示学习 渐进式修正

📋 核心要点

  1. 现有CoT方法在解决数学应用题时,推理路径中的任何错误都会严重影响最终答案的准确性。
  2. PRP方法通过迭代验证和修正过程,逐步识别并纠正推理路径中的错误,提高解题精度。
  3. 实验结果表明,PRP在八个数学应用题数据集上将平均准确率从77.3%提升至90.5%,性能显著优于CoT方法。

📝 摘要(中文)

思维链(CoT)提示方法已经使大型语言模型(LLM)能够生成推理路径并解决数学应用题(MWP)。然而,它们对路径中的错误非常敏感,因为任何错误都可能导致不正确的答案。我们提出了一种名为渐进式修正提示(PRP)的新方法,以将八个MWP数据集上的平均准确率从77.3%提高到90.5%。给定来自CoT的初始答案,PRP迭代一个验证-然后-修正的过程,以逐步识别不正确的答案并修正推理路径。利用最有可能正确的答案,LLM预测问题中被掩盖的数值;如果预测与被掩盖的值不匹配,则答案很可能不正确。然后,提示LLM重新生成推理路径,并提示一组不正确的答案,以防止其重复以前的错误。与CoT方法相比,PRP实现了最佳性能。我们的实现已在https://wzy6642.github.io/prp.github.io/上公开提供。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在解决数学应用题(MWP)时,由于推理路径中出现错误而导致答案不准确的问题。现有的Chain-of-Thought (CoT) 方法虽然能够生成推理路径,但对错误非常敏感,一个小的错误就可能导致最终答案错误,缺乏纠错机制。

核心思路:PRP的核心思路是引入一个迭代的“验证-修正”循环。首先,利用CoT生成初始答案和推理路径。然后,通过掩码预测的方式验证答案的正确性。如果验证发现答案可能错误,则利用错误信息引导LLM重新生成推理路径,避免重复之前的错误。这个过程不断迭代,直到获得一个置信度较高的正确答案。

技术框架:PRP主要包含以下几个阶段: 1. CoT初始推理:使用CoT方法生成初始答案和推理路径。 2. 答案验证:掩盖问题中的一个数值,利用LLM预测该数值。如果预测值与真实值不符,则认为答案可能错误。 3. 错误提示:将可能错误的答案作为提示信息,告知LLM。 4. 推理路径修正:利用错误提示,引导LLM重新生成推理路径,避免重复之前的错误。 5. 迭代优化:重复步骤2-4,直到答案验证通过或达到最大迭代次数。

关键创新:PRP的关键创新在于引入了“渐进式修正”的思想,通过迭代的验证和修正过程,逐步提高答案的准确性。与传统的CoT方法相比,PRP具有更强的鲁棒性和纠错能力。此外,利用掩码预测进行答案验证也是一个巧妙的设计,能够有效地检测答案的潜在错误。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构,因为PRP方法主要是一种提示策略,可以应用于各种LLM。关键在于如何设计有效的提示语,引导LLM进行推理路径的修正。例如,可以使用类似“之前的答案可能是错误的,因为……”的提示语,告知LLM错误的原因,并引导其重新思考。

📊 实验亮点

PRP方法在八个数学应用题数据集上取得了显著的性能提升,平均准确率从77.3%提高到90.5%。实验结果表明,PRP方法能够有效地纠正推理路径中的错误,提高LLM的解题精度,优于传统的CoT方法。这一结果验证了PRP方法的有效性和优越性。

🎯 应用场景

PRP方法可以广泛应用于需要LLM进行复杂推理的任务中,例如数学应用题、逻辑推理、代码生成等。该方法能够提高LLM的可靠性和准确性,使其在教育、科研、金融等领域具有更广泛的应用前景。未来,可以探索将PRP方法与其他技术(如知识图谱、强化学习)相结合,进一步提升LLM的推理能力。

📄 摘要(原文)

Chain-of-Thought (CoT) prompting methods have enabled large language models (LLMs) to generate reasoning paths and solve math word problems (MWPs). However, they are sensitive to mistakes in the paths, as any mistake can result in an incorrect answer. We propose a novel method named Progressive Rectification Prompting (PRP) to improve average accuracy on eight MWP datasets from 77.3 to 90.5. Given an initial answer from CoT, PRP iterates a verify-then-rectify process to progressively identify incorrect answers and rectify the reasoning paths. With the most likely correct answer, the LLM predicts a masked numerical value in the question; if the prediction does not match the masked value, the answer is likely incorrect. Then the LLM is prompted to re-generate the reasoning path hinted with a set of incorrect answers to prevent itself from repeating previous mistakes. PRP achieves the best performance compared against the CoT methods. Our implementation is made publicly available at https://wzy6642.github.io/prp.github.io/.