Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

📄 arXiv: 2602.23440v1 📥 PDF

作者: Chris Samarinas, Haw-Shiuan Chang, Hamed Zamani

分类: cs.CL, cs.IR

发布日期: 2026-02-26


💡 一句话要点

SLATE:基于截断步级采样和过程奖励的检索增强推理框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强推理 强化学习 信用分配 步级采样 过程奖励

📋 核心要点

  1. 现有检索增强推理方法面临信用分配难题,稀疏奖励难以指导模型学习。
  2. SLATE通过截断步级采样和LLM评估器提供的密集奖励,实现更有效的策略梯度学习。
  3. 实验表明,SLATE在多个QA基准上显著优于现有方法,尤其在多跳任务上表现突出。

📝 摘要(中文)

本文提出SLATE框架,旨在解决强化学习训练大型语言模型进行检索增强推理时面临的信用分配问题。现有方法(如Search-R1)仅在多步轨迹完成后提供稀疏奖励,难以将成功或失败归因于单个推理和检索决策。SLATE基于两个互补思想:(1)截断步级采样,生成共享前缀并在下一步不同的k个轨迹;(2)密集LLM-as-judge奖励,用LLM评估器评估每个推理步骤、搜索查询和答案的质量,提供更丰富和可靠的监督,取代启发式评分。理论证明,在相同密集奖励结构下,截断采样相比完整轨迹采样,可将优势估计的方差降低高达T倍(对于T步轨迹)。在七个QA基准上的实验表明,SLATE始终优于稀疏奖励和过程奖励基线,尤其在更困难的多跳任务和较小模型上增益最大。

🔬 方法详解

问题定义:论文旨在解决使用强化学习训练大型语言模型进行检索增强推理时,由于奖励信号稀疏而导致的信用分配问题。现有方法如Search-R1仅在完成整个多步推理轨迹后提供奖励,难以判断每一步的检索和推理决策对最终结果的影响,导致训练效率低下。StepSearch等过程奖励方法虽然引入了步级监督,但依赖于启发式奖励,且梯度方差仍然较高。

核心思路:SLATE的核心思路是通过截断步级采样和密集奖励来降低梯度方差,从而更有效地训练检索增强推理模型。截断步级采样关注于当前步骤的决策,而密集奖励则提供了更细粒度的反馈,使得模型能够更好地学习每一步的策略。

技术框架:SLATE框架包含以下几个主要组成部分:1) 检索增强推理模型:负责根据当前状态生成搜索查询,并利用检索结果进行推理;2) 截断步级采样器:生成共享前缀并在下一步不同的多个轨迹;3) LLM评估器:作为judge,评估每个推理步骤、搜索查询和答案的质量,生成密集奖励;4) 策略梯度优化器:利用密集奖励和截断步级采样生成的轨迹,更新检索增强推理模型的策略。

关键创新:SLATE的关键创新在于两个方面:1) 截断步级采样:通过共享轨迹前缀,减少了采样空间,降低了梯度方差;2) 密集LLM-as-judge奖励:利用大型语言模型作为评估器,提供了更丰富、更可靠的奖励信号,取代了传统的启发式奖励。

关键设计:截断步级采样中,生成k个轨迹,这些轨迹共享相同的历史步骤,仅在当前步骤的动作上有所不同。LLM评估器被设计成一个能够评估推理步骤、搜索查询和答案质量的模型,其输出被用作密集奖励。策略梯度优化器使用优势函数估计来更新策略,优势函数的方差由于截断步级采样而降低。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SLATE在七个QA基准上均优于现有方法,尤其在多跳推理任务上提升显著。例如,在某些数据集上,SLATE相比于基线方法取得了超过10%的性能提升。此外,SLATE在较小模型上的优势更为明显,表明其能够更有效地利用有限的计算资源。

🎯 应用场景

SLATE框架可应用于各种需要检索增强推理的场景,例如问答系统、知识图谱推理、对话系统等。通过提高模型的推理能力和检索效率,可以提升用户体验,并为用户提供更准确、更全面的信息。该研究对于构建更智能、更可靠的AI系统具有重要意义。

📄 摘要(原文)

Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.