Knowing What to Solve Before How: Preplan Empowered LLM Mathematical Reasoning

📄 arXiv: 2605.30245v1 📥 PDF

作者: Shaojie Wang, Liang Zhang

分类: cs.CL

发布日期: 2026-05-28


💡 一句话要点

PPC:通过预先规划增强LLM的数学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 问题理解 预计划 思维链

📋 核心要点

  1. 现有基于规划的LLM推理方法缺乏对问题本身的理解,导致规划和执行阶段的效率降低。
  2. PPC框架通过引入“预计划”阶段,显式地进行问题理解,从而指导后续的规划和执行。
  3. 实验结果表明,PPC在多个数学推理基准测试中显著优于现有方法,且没有增加额外的计算开销。

📝 摘要(中文)

现有的基于规划的推理方法通过在执行前插入规划阶段来改进大型语言模型(LLM),产生了问题$ ightarrow$计划$ ightarrow$思维链(CoT)的范式。虽然有效,但仔细研究发现了一个固有的范式层面的差距:规划和执行阶段都决定了如何解决问题,而事先的问题,即要解决什么问题,识别问题类型、适用的工具和可预见的陷阱,仍然完全是隐式的。为了弥合这一差距,我们提出了PPC(预计划-计划-CoT),一个引入显式问题理解阶段(预计划)的框架,产生了一个新的问题$ ightarrow$预计划$ ightarrow$计划$ ightarrow$CoT范式。实现这一范式需要在两端维护预计划的概念完整性。具体来说,我们设计了一个三阶段的合成管道,带有一个spoiler-score检测器,用于过滤掉泄漏和spoiler失败,以构建干净的预计划监督,以及一个复合GRPO奖励,强制生成的计划真正遵循预计划。在四个backbone和五个数学推理基准上的实验表明,PPC在40个指标中的39个上取得了最佳结果,在maj@16和pass@16上分别比最强的基线提高了+2.23和+3.06,而没有引入额外的推理token开销。

🔬 方法详解

问题定义:现有基于规划的LLM推理方法,如Plan-and-Solve,主要关注如何解决问题,而忽略了对问题本身的理解。这种忽略导致模型在规划和执行阶段可能会选择错误的工具或策略,从而影响最终的推理效果。现有方法的痛点在于缺乏对问题类型的识别、适用工具的选择以及潜在陷阱的预判。

核心思路:PPC的核心思路是在规划阶段之前增加一个“预计划”阶段,显式地让模型理解问题。预计划阶段的目标是识别问题类型、选择合适的工具,并预测潜在的错误。通过预先理解问题,PPC可以更好地指导后续的规划和执行阶段,从而提高推理的准确性和效率。

技术框架:PPC框架包含三个主要阶段:预计划(Preplan)、计划(Plan)和思维链(CoT)。首先,模型在预计划阶段对问题进行理解,生成一个预计划,其中包含问题类型、适用工具和潜在陷阱等信息。然后,模型根据预计划生成一个详细的计划,描述解决问题的步骤。最后,模型根据计划执行推理,生成最终的答案。为了保证预计划的质量,论文设计了一个三阶段的合成管道,并使用spoiler-score检测器过滤掉不合格的预计划。

关键创新:PPC最重要的技术创新点在于引入了“预计划”阶段,将问题理解显式地纳入到推理过程中。与现有方法相比,PPC不仅关注如何解决问题,更关注要解决什么问题。这种范式上的转变使得模型能够更好地理解问题的本质,从而选择更合适的工具和策略。

关键设计:为了保证预计划的质量,论文设计了一个三阶段的合成管道,包括:1) 生成多个候选预计划;2) 使用spoiler-score检测器对候选预计划进行评估,过滤掉包含泄漏或spoiler信息的预计划;3) 选择得分最高的预计划作为最终的预计划。此外,论文还使用了一个复合GRPO奖励,强制生成的计划真正遵循预计划的内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PPC在五个数学推理基准测试中取得了显著的提升。例如,在maj@16和pass@16指标上,PPC分别比最强的基线提高了+2.23和+3.06。值得注意的是,PPC在提升性能的同时,并没有引入额外的推理token开销,这表明PPC是一种高效的推理方法。

🎯 应用场景

PPC框架可以应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过显式地进行问题理解,PPC可以提高LLM在这些场景下的性能,并减少错误。此外,PPC还可以用于教育领域,帮助学生更好地理解问题,并制定合理的解题计划。

📄 摘要(原文)

Current plan-based reasoning methods improve large language models (LLMs) by inserting a planning stage before execution, giving rise to the question $\rightarrow$ plan $\rightarrow$ cot paradigm. While effective, a closer examination reveals an inherent paradigm-level gap: both the planning and its execution stages decide how to solve a problem, while the prior question of what to solve; recognizing the problem type, the applicable tools, and the foreseeable pitfalls; remains entirely implicit. To bridge this gap, we propose PPC (Preplan-Plan-CoT), a framework that introduces an explicit problem-understanding stage, the preplan, yielding a new question $\rightarrow$ preplan $\rightarrow$ plan $\rightarrow$ cot paradigm. Realizing this paradigm requires safeguarding the conceptual integrity of preplan at both ends. Specifically, we design a three-stage synthesis pipeline with a spoiler-score detector that filters out leakage and spoiler failures to build clean preplan supervision, and a composite GRPO reward enforces that the generated plan genuinely follows from the preplan. Experiments across four backbones and five mathematical reasoning benchmarks show that PPC achieves the best results on 39 of 40 metrics, improving maj@16 and pass@16 by +2.23 and +3.06 over the strongest baseline without introducing additional inference token overhead.