SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

📄 arXiv: 2605.29796v1 📥 PDF

作者: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出SAAS,通过自感知强化学习缓解Agentic Search中的过度搜索问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Agentic Search 强化学习 自感知 过度搜索 知识边界 奖励塑造 阶段式优化

📋 核心要点

  1. Agentic Search面临过度搜索问题,即在知识足够或证据充分时仍进行不必要的搜索,导致高延迟和计算成本。
  2. SAAS框架通过强化学习培养智能体的动态自感知能力,精确调节搜索行为,在准确性不受影响的前提下减少过度搜索。
  3. SAAS通过搜索边界建模、边界感知奖励和阶段式优化策略,有效抑制不必要的搜索,实验证明能显著减少过度搜索。

📝 摘要(中文)

Agentic search使大型语言模型(LLM)能够通过迭代推理和外部搜索来解决复杂的多跳问题。然而,这些系统在实践中常常面临一个关键限制:智能体无法识别自身的知识边界,当内部知识足够时盲目触发搜索,即使收集到足够的证据也无法终止搜索。这种缺乏自感知能力导致严重的过度搜索,从而导致大量的推理延迟和过高的计算成本。为此,我们提出了一种新的强化学习框架SAAS,旨在培养动态的自感知能力,从而在不影响准确性的前提下精确地调节搜索行为。SAAS引入了三个关键组件:(i)搜索边界建模机制,通过对比禁用搜索和启用搜索的rollout来识别演化策略下的搜索边界;(ii)边界感知奖励模块,将这种边界感知转化为轨迹级别的惩罚,抑制不必要和冗余的搜索;(iii)阶段式优化策略,利用顺序课程来优先考虑推理而不是搜索正则化,从而避免奖励黑客。大量的实验表明,SAAS在保持准确性的同时,显著减少了过度搜索。我们的代码已匿名发布。

🔬 方法详解

问题定义:Agentic Search旨在利用LLM进行迭代推理和外部搜索来解决复杂问题。然而,现有方法的一个主要痛点是智能体缺乏自感知能力,无法准确判断何时应该停止搜索,导致过度搜索,浪费计算资源和时间。现有方法没有有效地建模智能体的知识边界,因此无法区分必要的搜索和冗余的搜索。

核心思路:SAAS的核心思路是利用强化学习来训练智能体,使其具备动态的自感知能力。通过学习搜索边界,智能体可以更好地判断何时应该停止搜索,从而减少过度搜索。SAAS通过引入边界感知奖励,鼓励智能体在知识足够的情况下停止搜索,从而提高效率。

技术框架:SAAS框架包含三个主要模块:搜索边界建模机制、边界感知奖励模块和阶段式优化策略。搜索边界建模机制通过对比启用搜索和禁用搜索的rollout来识别搜索边界。边界感知奖励模块将搜索边界信息转化为轨迹级别的惩罚,抑制不必要的搜索。阶段式优化策略首先优化推理能力,然后再进行搜索正则化,避免奖励黑客。整体流程是,智能体根据当前状态选择是否进行搜索,然后根据环境反馈和边界感知奖励更新策略。

关键创新:SAAS的关键创新在于引入了搜索边界建模机制和边界感知奖励模块,使得智能体能够学习自身的知识边界,并根据边界信息调整搜索行为。与现有方法相比,SAAS能够更有效地减少过度搜索,同时保持准确性。此外,阶段式优化策略也是一个重要的创新,它避免了奖励黑客问题,提高了训练的稳定性。

关键设计:搜索边界建模机制通过计算启用搜索和禁用搜索的rollout之间的差异来估计搜索边界。边界感知奖励模块使用一个神经网络来预测搜索的必要性,并根据预测结果给予智能体奖励或惩罚。阶段式优化策略首先使用一个奖励函数来鼓励智能体进行推理,然后再使用边界感知奖励来抑制过度搜索。具体的网络结构和损失函数细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAAS在保持准确性的前提下,显著减少了过度搜索。具体来说,SAAS在多个基准测试中,将搜索次数减少了20%-40%,同时保持了与现有方法相当的准确率。这表明SAAS能够有效地提高Agentic Search的效率,降低计算成本。

🎯 应用场景

SAAS框架可应用于各种需要Agentic Search的场景,例如问答系统、知识图谱推理、代码生成等。通过减少过度搜索,SAAS可以显著提高这些系统的效率和降低计算成本,使其更适用于资源受限的环境。此外,SAAS的自感知能力也可以提高智能体的鲁棒性和泛化能力。

📄 摘要(原文)

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.