Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search

📄 arXiv: 2509.25420v1 📥 PDF

作者: Yingqian Cui, Zhenwei Dai, Pengfei He, Bing He, Hui Liu, Xianfeng Tang, Jingying Zeng, Suhang Wang, Yue Xing, Jiliang Tang, Benoit Dumoulin

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-29


💡 一句话要点

提出基于奖励引导的双阶段搜索,提升LLM在推理任务中的效率和准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理任务 双阶段搜索 奖励模型 动态预算分配

📋 核心要点

  1. 现有基于树搜索的LLM推理方法效率低下,未能充分利用任务的规划-执行特性。
  2. 论文提出双阶段搜索框架,显式分离规划和执行阶段,并为每个阶段设计奖励模型。
  3. 实验表明,该方法在数学推理和代码生成任务中,提高了准确性并减少了计算冗余。

📝 摘要(中文)

大型语言模型(LLMs)在推理任务中取得了显著进展。一种关键方法是基于树的搜索与验证器,它扩展候选推理路径并使用奖励模型来指导剪枝和选择。尽管这些方法在提高准确性方面有效,但在效率方面并非最佳:它们对推理过程执行简单的分解,但忽略了数学推理或代码生成等任务的规划-执行性质。这导致推理过程的低效探索。为了解决这个问题,我们提出了一个双阶段测试时缩放框架,该框架明确地将推理分为规划和执行,并分别对这两个阶段执行搜索。具体来说,我们分解推理轨迹,并为每个阶段开发奖励模型,使搜索能够分别探索和修剪计划和执行。我们进一步引入了一种动态预算分配机制,该机制根据奖励反馈自适应地重新分配采样工作,从而允许在有信心的步骤上提前停止,并将计算重新分配给推理过程中更具挑战性的部分。在数学推理和代码生成基准上的实验表明,我们的方法在减少冗余计算的同时,始终如一地提高了准确性。

🔬 方法详解

问题定义:现有基于树搜索的LLM推理方法,例如数学推理和代码生成,通常采用简单的分解方式,忽略了任务本身具有的规划和执行的先后顺序。这种一概而论的处理方式导致搜索效率低下,浪费计算资源在不必要的推理路径上。

核心思路:论文的核心思路是将推理过程显式地分解为规划和执行两个阶段,并针对每个阶段分别进行搜索和优化。规划阶段负责生成推理方案,执行阶段负责根据方案逐步执行。通过这种分离,可以更有效地探索推理空间,并减少冗余计算。

技术框架:该方法采用双阶段测试时缩放框架。首先,将推理轨迹分解为规划和执行两个阶段。然后,为每个阶段分别训练奖励模型,用于评估每个阶段的推理质量。在搜索过程中,分别对规划和执行阶段进行采样和评估,并使用奖励模型指导剪枝和选择。此外,引入动态预算分配机制,根据奖励反馈自适应地调整每个阶段的采样预算。

关键创新:该方法最重要的创新点在于显式地将推理过程分解为规划和执行两个阶段,并针对每个阶段分别进行优化。这种分解方式更符合人类的推理习惯,也更有效地利用了任务的结构信息。此外,动态预算分配机制能够根据推理的难易程度自适应地调整计算资源,进一步提高了效率。

关键设计:规划和执行阶段的奖励模型可以使用不同的架构和训练目标,以适应每个阶段的特点。动态预算分配机制可以采用多种策略,例如基于置信度的提前停止和基于梯度信息的资源分配。具体的参数设置和损失函数需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在数学推理和代码生成基准上均取得了显著的性能提升。具体而言,在保持或提高准确性的同时,有效减少了冗余计算。例如,在某些数学推理任务上,该方法能够在减少计算量的同时,将准确率提升X%。与现有方法相比,该方法在效率和准确性之间取得了更好的平衡。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理、智能对话等。通过提高推理效率和准确性,可以提升相关应用的性能和用户体验,并降低计算成本。未来,该方法有望扩展到更复杂的推理任务和更广泛的应用领域。

📄 摘要(原文)

Large Language Models (LLMs) have achieved significant advances in reasoning tasks. A key approach is tree-based search with verifiers, which expand candidate reasoning paths and use reward models to guide pruning and selection. Although effective in improving accuracy, these methods are not optimal in terms of efficiency: they perform simple decomposition on the reasoning process, but ignore the planning-execution nature of tasks such as math reasoning or code generation. This results in inefficient exploration of reasoning process. To address this, we propose a dual-phase test-time scaling framework that explicitly separates reasoning into planning and execution, and performs search over the two phases individually. Specifically, we decompose reasoning trajectories and develop reward models for each phase, enabling the search to explore and prune plans and executions separately. We further introduce a dynamic budget allocation mechanism that adaptively redistributes sampling effort based on reward feedback, allowing early stopping on confident steps and reallocation of computation to more challenging parts of the reasoning process. Experiments on both mathematical reasoning and code generation benchmarks demonstrate that our approach consistently improves accuracy while reducing redundant computation.