BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

📄 arXiv: 2501.03226v3 📥 PDF

作者: Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-06 (更新: 2025-02-17)

备注: Codes and Data are available at https://github.com/beichenzbc/BoostStep


💡 一句话要点

BoostStep:通过改进单步推理提升大语言模型的数学能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学推理 上下文学习 思维链 树搜索

📋 核心要点

  1. 现有大语言模型在数学问题推理中面临粒度不匹配和无关信息干扰的问题,导致推理步骤中出现错误。
  2. BoostStep通过步骤对齐的上下文学习,将检索到的参考步骤与推理步骤对齐,并采用“first-try”策略选择相关示例。
  3. 实验表明,BoostStep显著提升了GPT-4o等模型的数学推理能力,尤其是在结合思维链和树搜索算法时。

📝 摘要(中文)

大型语言模型(LLM)在解决复杂的多步推理数学问题方面表现出令人印象深刻的能力,并且可以通过精心设计的上下文学习(ICL)示例进一步增强。然而,这种潜力通常受到ICL中的两个主要挑战的限制:粒度不匹配和无关信息。我们观察到,虽然LLM擅长分解数学问题,但它们常常在细粒度步骤中遇到推理错误。此外,在问题级别检索的ICL示例可能会遗漏关键步骤,甚至用无关细节误导模型。为了解决这个问题,我们提出BoostStep,一种通过步骤对齐的ICL来提高推理准确性的方法,这是一种新颖的机制,可以仔细地将检索到的参考步骤与相应的推理步骤对齐。此外,BoostStep还结合了一种有效的“first-try”策略,以提供与当前推理状态高度相关的示例。BoostStep是一种灵活而强大的方法,可以与思维链(CoT)和树搜索算法无缝集成,从而改进候选选择和决策。实验结果表明,BoostStep将GPT-4o的CoT性能在数学基准测试中提高了4.6%,显著超过了传统少样本学习的1.2%。此外,它与树搜索结合使用时,可以实现额外的7.5%的增益。令人惊讶的是,它增强了最先进的LLM,使其可以使用更简单的示例来解决具有挑战性的数学问题。它仅利用MATH数据集中的简单示例,将DeepSeek-R1-671B在AIME上的性能提高了2.2%。

🔬 方法详解

问题定义:论文旨在解决大语言模型在数学问题求解中,由于上下文学习(ICL)的粒度不匹配和无关信息干扰导致的推理错误问题。现有方法在问题级别检索示例,可能无法提供与当前推理步骤精确匹配的参考,从而影响推理的准确性。

核心思路:BoostStep的核心思路是进行步骤对齐的上下文学习,即在每个推理步骤中,检索与该步骤最相关的参考步骤,而不是整个问题。通过这种方式,模型可以获得更精确、更相关的指导,从而减少推理错误。同时,采用“first-try”策略,优先选择与当前推理状态最相似的示例。

技术框架:BoostStep可以与现有的思维链(CoT)和树搜索算法结合使用。其主要流程包括:1) 对问题进行分解,得到多个推理步骤;2) 在每个步骤中,使用“first-try”策略检索最相关的参考步骤;3) 将检索到的参考步骤作为上下文,输入到大语言模型中进行推理;4) 将推理结果传递到下一个步骤,直到问题解决。在树搜索中,BoostStep可以用于改进候选选择和决策过程。

关键创新:BoostStep最重要的技术创新点在于步骤对齐的上下文学习。与传统的在问题级别检索示例的方法不同,BoostStep在每个推理步骤中检索示例,从而提供更精确、更相关的指导。此外,“first-try”策略也能够有效地选择与当前推理状态最相似的示例。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但“first-try”策略是一个关键设计,它涉及到如何衡量当前推理状态与参考步骤之间的相似度,以及如何选择最相似的示例。具体的相似度度量方法和选择策略可能需要根据不同的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BoostStep在数学基准测试中显著提升了GPT-4o的CoT性能,提升幅度达到4.6%,远超传统少样本学习的1.2%。结合树搜索算法后,性能提升可达7.5%。更令人惊讶的是,BoostStep能够利用更简单的示例,提升DeepSeek-R1-671B在AIME上的性能2.2%。这些结果表明BoostStep是一种有效且通用的方法,可以显著提高大语言模型的数学推理能力。

🎯 应用场景

BoostStep可应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、逻辑推理等。通过提高大语言模型的推理准确性,可以提升其在这些领域的应用效果,并有望在教育、科研、工程等领域发挥重要作用。该方法可以帮助LLM更好地理解和解决复杂问题,从而拓展其应用范围。

📄 摘要(原文)

Large language models (LLMs) have demonstrated impressive ability in solving complex mathematical problems with multi-step reasoning and can be further enhanced with well-designed in-context learning (ICL) examples. However, this potential is often constrained by two major challenges in ICL: granularity mismatch and irrelevant information. We observe that while LLMs excel at decomposing mathematical problems, they often struggle with reasoning errors in fine-grained steps. Moreover, ICL examples retrieved at the question level may omit critical steps or even mislead the model with irrelevant details. To address this issue, we propose BoostStep, a method that enhances reasoning accuracy through step-aligned ICL, a novel mechanism that carefully aligns retrieved reference steps with the corresponding reasoning steps. Additionally, BoostStep incorporates an effective "first-try" strategy to deliver exemplars highly relevant to the current state of reasoning. BoostStep is a flexible and powerful method that integrates seamlessly with chain-of-thought (CoT) and tree search algorithms, refining both candidate selection and decision-making. Empirical results show that BoostStep improves GPT-4o's CoT performance by 4.6% across mathematical benchmarks, significantly surpassing traditional few-shot learning's 1.2%. Moreover, it can achieve an additional 7.5\% gain combined with tree search. Surprisingly, it enhances state-of-the-art LLMs to solve challenging math problems using simpler examples. It improves DeepSeek-R1-671B's performance on AIME by 2.2%, leveraging simple examples only from the MATH dataset.