Do Not Waste Your Rollouts: Recycling Search Experience for Efficient Test-Time Scaling
作者: Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li
分类: cs.CL, cs.LG
发布日期: 2026-01-29
备注: preprint
💡 一句话要点
提出RSE:通过经验回收利用提升大语言模型测试时推理效率
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 测试时扩展 推理 经验回收 搜索效率
📋 核心要点
- 现有测试时扩展方法将每次rollout视为独立事件,忽略了中间过程的宝贵信息,导致计算冗余。
- RSE通过构建经验库,积极回收中间结论,避免重复推导;消极回收失败模式,剪枝无效路径。
- 实验表明,RSE在多个数学推理数据集上超越了现有方法,实现了更高效的测试时扩展。
📝 摘要(中文)
测试时扩展(Test-Time Scaling)通过分配额外的推理计算来扩展解空间探索,从而增强大型语言模型的推理能力。然而,现有的搜索策略通常将rollout视为一次性样本,每次尝试后都会丢弃有价值的中间信息。这种系统性的“失忆”导致了大量的计算冗余,因为模型在多次尝试中反复重新推导已知的结论并重新访问已知的死胡同。为了弥补这一差距,我们提出了一种名为“回收搜索经验(Recycling Search Experience,RSE)”的自引导、免训练策略,该策略将测试时搜索从一系列孤立的试验转变为一个累积的过程。通过主动将原始轨迹提炼成共享的经验库,RSE能够积极地回收中间结论以避免冗余推导,并消极地回收失败模式以剪除遇到的死胡同。理论上,我们提供了一个分析,形式化了RSE的效率提升,验证了其在解决复杂推理任务中相对于独立采样的优势。在HMMT24、HMMT25、IMO-Bench和HLE上的大量实验表明,RSE在相当的计算成本下始终优于强大的基线,实现了最先进的扩展效率。
🔬 方法详解
问题定义:现有的大语言模型测试时扩展方法,例如 self-consistency decoding 等,在进行多次 rollout 时,每次都独立进行推理,没有充分利用之前 rollout 的信息。这导致模型重复探索相同的解空间,浪费了大量的计算资源。尤其是在复杂的推理任务中,这种重复计算的代价非常高昂。因此,需要一种方法来减少这种冗余,提高测试时扩展的效率。
核心思路:RSE 的核心思路是将每次 rollout 的经验(包括成功的和失败的)存储在一个共享的经验库中,并在后续的 rollout 中利用这些经验。具体来说,RSE 会积极地回收中间结论,避免重复推导;同时,消极地回收失败模式,剪枝无效路径。通过这种方式,RSE 将测试时搜索从一系列孤立的试验转变为一个累积的过程,从而提高了搜索效率。
技术框架:RSE 的整体框架包括以下几个主要模块: 1. Rollout Generation:使用大语言模型生成多个 rollout,每个 rollout 代表一个可能的解路径。 2. Experience Distillation:将每个 rollout 的信息提炼成经验,包括中间结论和失败模式。 3. Experience Bank:存储提炼出的经验,形成一个共享的经验库。 4. Experience Recycling:在后续的 rollout 中,利用经验库中的信息来指导搜索过程,避免重复探索和无效路径。
关键创新:RSE 最重要的技术创新点在于它将测试时搜索视为一个累积的过程,而不是一系列独立的试验。通过构建经验库并积极/消极地回收经验,RSE 能够显著提高搜索效率,减少计算冗余。与现有方法相比,RSE 不需要额外的训练,可以直接应用于现有的测试时扩展框架。
关键设计:RSE 的关键设计包括: 1. 经验表示:如何有效地表示中间结论和失败模式,以便在后续的 rollout 中使用。 2. 经验选择:如何从经验库中选择合适的经验来指导搜索过程。 3. 经验更新:如何更新经验库,以反映最新的搜索结果。 论文中没有明确给出经验表示、选择和更新的具体细节,这些可能是根据具体任务和数据集进行调整的。因此,具体的技术细节未知。
📊 实验亮点
RSE 在 HMMT24、HMMT25、IMO-Bench 和 HLE 等数学推理数据集上进行了实验,结果表明 RSE 在相当的计算成本下始终优于强大的基线,实现了最先进的扩展效率。具体的性能提升数据在摘要中没有给出,需要在论文正文中查找。
🎯 应用场景
RSE 可以广泛应用于需要复杂推理的大语言模型应用场景,例如数学问题求解、代码生成、知识图谱推理等。通过提高测试时扩展的效率,RSE 可以降低计算成本,并使得大语言模型能够处理更加复杂的任务。未来,RSE 可以与其他测试时扩展技术相结合,进一步提升大语言模型的推理能力。
📄 摘要(原文)
Test-Time Scaling enhances the reasoning capabilities of Large Language Models by allocating additional inference compute to broaden the exploration of the solution space. However, existing search strategies typically treat rollouts as disposable samples, where valuable intermediate insights are effectively discarded after each trial. This systemic memorylessness leads to massive computational redundancy, as models repeatedly re-derive discovered conclusions and revisit known dead ends across extensive attempts. To bridge this gap, we propose \textbf{Recycling Search Experience (RSE)}, a self-guided, training-free strategy that turns test-time search from a series of isolated trials into a cumulative process. By actively distilling raw trajectories into a shared experience bank, RSE enables positive recycling of intermediate conclusions to shortcut redundant derivations and negative recycling of failure patterns to prune encountered dead ends. Theoretically, we provide an analysis that formalizes the efficiency gains of RSE, validating its advantage over independent sampling in solving complex reasoning tasks. Empirically, extensive experiments on HMMT24, HMMT25, IMO-Bench, and HLE show that RSE consistently outperforms strong baselines with comparable computational cost, achieving state-of-the-art scaling efficiency.