DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

📄 arXiv: 2509.25454v3 📥 PDF

作者: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi

分类: cs.AI, cs.CL

发布日期: 2025-09-29 (更新: 2026-01-07)


💡 一句话要点

DeepSearch:通过蒙特卡洛树搜索和可验证奖励克服强化学习瓶颈

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 蒙特卡洛树搜索 语言模型 推理 探索

📋 核心要点

  1. 现有RLVR方法在训练中存在探索不足的问题,导致性能提升停滞。
  2. DeepSearch将蒙特卡洛树搜索集成到RLVR训练中,实现系统探索和细粒度信用分配。
  3. 实验表明,DeepSearch在数学推理任务上显著提升了性能,并降低了计算成本。

📝 摘要(中文)

尽管RLVR已成为语言模型中发展高级推理能力的关键组成部分,但现有研究表明,经过数千次优化步骤后,训练会达到瓶颈,即尽管计算投入增加,性能提升却显著下降。这种限制源于当前RLVR实践中固有的稀疏探索模式,模型依赖于有限的rollout,这常常错失关键的推理路径,并且无法系统地覆盖解空间。我们提出了DeepSearch,一个将蒙特卡洛树搜索(MCTS)直接集成到RLVR训练中的框架。与仅在推理时依赖树搜索的现有方法不同,DeepSearch将结构化搜索嵌入到训练循环中,从而实现系统的探索和跨推理步骤的细粒度信用分配。通过训练时探索,DeepSearch解决了探索不足的根本瓶颈,这导致在长时间的训练步骤中性能提升逐渐减小。我们的贡献包括:(1)一种全局前沿选择策略,优先考虑搜索树中具有前景的节点;(2)基于熵引导的选择,识别用于监督的置信路径;(3)具有解决方案缓存的自适应重放缓冲区训练,以提高效率。在数学推理基准上的实验表明,DeepSearch实现了62.95%的平均准确率,并为1.5B推理模型建立了新的state-of-the-art,同时使用的GPU时间比扩展训练方法少5.7倍。这些结果突出了战略探索相对于蛮力扩展的重要性,并展示了算法创新在推进RLVR方法方面的潜力。DeepSearch为通过系统搜索而不是长时间计算来扩展推理能力建立了一个新的方向。

🔬 方法详解

问题定义:现有基于强化学习和可验证奖励(RLVR)的语言模型推理方法,在经过长时间训练后,性能提升会遇到瓶颈。这是因为模型在训练过程中探索不足,无法充分覆盖解空间,导致关键推理路径缺失,难以有效学习。

核心思路:DeepSearch的核心思路是将蒙特卡洛树搜索(MCTS)直接嵌入到RLVR的训练循环中。通过在训练时进行结构化搜索,模型可以更系统地探索解空间,并对每个推理步骤进行更细粒度的信用分配,从而克服探索不足的问题。

技术框架:DeepSearch框架包含以下主要模块:1) 全局前沿选择:优先选择搜索树中更有希望的节点进行扩展。2) 基于熵引导的选择:利用熵来识别置信度高的推理路径,用于监督学习。3) 自适应重放缓冲区训练:使用解决方案缓存来提高训练效率。整体流程是,在每个训练迭代中,使用MCTS进行探索,然后利用探索结果更新模型参数。

关键创新:DeepSearch的关键创新在于将MCTS从推理阶段引入到训练阶段。与传统的RLVR方法不同,DeepSearch不是仅仅依赖于有限的rollout,而是在训练过程中进行主动搜索,从而更有效地探索解空间。这种训练时搜索的策略是克服探索不足瓶颈的关键。

关键设计:DeepSearch的关键设计包括:1) 全局前沿选择策略:具体实现未知。2) 基于熵引导的选择:使用熵来衡量推理路径的置信度,并选择置信度高的路径进行监督学习,具体熵的计算方式未知。3) 自适应重放缓冲区训练:使用解决方案缓存来存储已经找到的解决方案,避免重复探索,提高训练效率,具体缓存策略未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

DeepSearch在数学推理基准测试中取得了显著成果,平均准确率达到62.95%,为1.5B参数的推理模型建立了新的state-of-the-art。更重要的是,DeepSearch仅使用了传统扩展训练方法5.7倍的GPU时间,表明其在提高性能的同时,显著降低了计算成本。

🎯 应用场景

DeepSearch可应用于各种需要复杂推理能力的语言模型任务,例如数学问题求解、逻辑推理、代码生成等。该方法通过提高模型的探索能力和学习效率,有望推动语言模型在这些领域的应用,并最终实现更强大的通用人工智能。

📄 摘要(原文)

Although RLVR has become an essential component for developing advanced reasoning skills in language models, contemporary studies have documented training plateaus after thousands of optimization steps, i.e., notable decreases in performance gains despite increased computational investment. This limitation stems from the sparse exploration patterns inherent in current RLVR practices, where models rely on limited rollouts that often miss critical reasoning paths and fail to provide systematic coverage of the solution space. We present DeepSearch, a framework that integrates Monte Carlo Tree Search (MCTS) directly into RLVR training. In contrast to existing methods that rely on tree search only at inference, DeepSearch embeds structured search into the training loop, enabling systematic exploration and fine-grained credit assignment across reasoning steps. Through training-time exploration, DeepSearch addresses the fundamental bottleneck of insufficient exploration, which leads to diminishing performance improvements over prolonged training steps. Our contributions include: (1) a global frontier selection strategy that prioritizes promising nodes across the search tree, (2) selection with entropy-based guidance that identifies confident paths for supervision, and (3) adaptive replay buffer training with solution caching for efficiency. Experiments on mathematical reasoning benchmarks show that DeepSearch achieves 62.95% average accuracy and establishes a new state-of-the-art for 1.5B reasoning models, while using 5.7x fewer GPU hours than extended training approaches. These results highlight the importance of strategic exploration over brute-force scaling and demonstrate the promise of algorithmic innovation for advancing RLVR methodologies. DeepSearch establishes a new direction for scaling reasoning capabilities through systematic search rather than prolonged computation.