SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

📄 arXiv: 2606.07074v1 📥 PDF

作者: Zequn Xie, Junjie Wang, Dan Yang, Jie Feng, Yue Shen, Jian Wang, Jinjie Gu

分类: cs.LG, cs.AI

发布日期: 2026-06-05

备注: 17 pages, 8 figures,


💡 一句话要点

提出SlimSearcher以解决深度研究代理的计算效率问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度学习 信息检索 强化学习 计算效率 自适应奖励 Pareto优化 模型训练

📋 核心要点

  1. 现有深度研究代理模型在信息检索任务中效率低下,导致不必要的计算和资源浪费。
  2. SlimSearcher框架通过Pareto高效过滤和自适应奖励门控机制,优化模型的搜索行为,提升计算效率。
  3. 实验结果显示,SlimSearcher在多个基准测试上显著减少工具调用次数,同时保持或提升了模型的准确性。

📝 摘要(中文)

深度研究代理在复杂信息检索任务中展现出卓越能力,但其计算成本高昂。现有模型依赖盲目的工具调用和冗长的推理过程,导致不必要的工具调用和过多的token消耗。为了解决这一效率陷阱,本文提出了SlimSearcher框架,通过在监督微调(SFT)和强化学习(RL)阶段推动车辆的准确性与计算成本之间的Pareto前沿。在SFT阶段,SlimSearcher采用Pareto高效过滤,提炼出既成功又经济的轨迹。在RL阶段,引入自适应奖励门控机制,动态评估工具和token的相对效率。大量实验表明,SlimSearcher在保持或提高准确率的同时,平均减少工具调用次数17%-58%。

🔬 方法详解

问题定义:本文旨在解决深度研究代理在信息检索任务中由于盲目工具依赖和冗长推理导致的计算效率低下问题。现有方法往往产生冗余的轨迹,造成资源浪费。

核心思路:SlimSearcher通过在训练过程中引入效率意识,优化模型的搜索行为,采用Pareto高效过滤和自适应奖励机制,旨在提升模型的计算效率与准确性之间的平衡。

技术框架:SlimSearcher的整体架构分为两个主要阶段:监督微调(SFT)和强化学习(RL)。在SFT阶段,模型通过Pareto高效过滤提炼出成功且经济的轨迹;在RL阶段,应用自适应奖励门控机制评估工具和token的效率。

关键创新:最重要的创新在于引入了自适应奖励门控机制,该机制动态调整奖励,避免了绝对惩罚带来的简短偏见,并有效减少了奖励黑客现象。

关键设计:在设计中,SlimSearcher设置了严格的正确性门控,并通过动态评估相对效率的方式,确保模型在追求效率的同时不牺牲准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在长时间基准测试中,SlimSearcher显著减少了17%-58%的平均工具调用次数,同时保持或提升了模型的准确性。这一结果表明,SlimSearcher在效率与准确性之间实现了有效的平衡,具有重要的实用价值。

🎯 应用场景

SlimSearcher的研究成果在信息检索、智能助手和自动化决策等领域具有广泛的应用潜力。通过提高计算效率,该框架能够在资源受限的环境中实现更高效的信息处理,推动智能系统的普及与发展。

📄 摘要(原文)

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.