SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
作者: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-05-28 (更新: 2026-05-29)
🔗 代码/项目: GITHUB
💡 一句话要点
SAAS:面向Agentic搜索中过度搜索缓解的自感知强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Agentic搜索 强化学习 自感知 过度搜索缓解 知识边界建模
📋 核心要点
- Agentic搜索面临智能体缺乏自知之明的问题,导致不必要的搜索,增加了计算成本和延迟。
- SAAS框架通过建模搜索边界、设计边界感知奖励和采用阶段式优化策略来解决过度搜索问题。
- 实验结果表明,SAAS能够在保持准确性的前提下,显著减少Agentic搜索中的过度搜索行为。
📝 摘要(中文)
Agentic搜索使大型语言模型(LLM)能够通过迭代推理和外部搜索来解决复杂的多跳问题。然而,这些系统在实践中常常面临一个关键限制:智能体无法识别自身的知识边界,当内部知识足够时盲目触发搜索,即使收集到足够的证据也无法终止搜索。这种缺乏自感知能力导致严重的过度搜索,从而产生大量的推理延迟和高昂的计算成本。为此,我们提出了一种新颖的强化学习框架SAAS,旨在培养动态的自感知能力,从而在不影响准确性的前提下精确地调节搜索行为。SAAS引入了三个关键组件:(i)搜索边界建模机制,通过对比禁用搜索和启用搜索的rollout来识别演化策略下的搜索边界;(ii)边界感知奖励模块,将这种边界感知转化为轨迹级别的惩罚,抑制不必要和冗余的搜索;(iii)阶段式优化策略,利用顺序课程来优先考虑推理而非搜索正则化,从而避免奖励黑客。大量的实验表明,SAAS在保持准确性的同时,显著减少了过度搜索。我们的代码和实现细节已在https://github.com/XMUDeepLIT/SAAS上发布。
🔬 方法详解
问题定义:Agentic搜索旨在利用LLM的推理能力和外部知识库来解决复杂问题。然而,现有方法常常存在过度搜索的问题,即智能体在自身知识足以解决问题时仍然发起搜索,或者在获得足够信息后仍然无法停止搜索。这种过度搜索导致了不必要的计算开销和延迟,降低了Agentic搜索的效率。现有方法的痛点在于缺乏对自身知识边界的准确感知,无法动态地调节搜索行为。
核心思路:SAAS的核心思路是通过强化学习来训练智能体,使其具备动态的自感知能力,从而能够根据当前状态和知识水平,智能地决定是否进行搜索。具体来说,SAAS通过建模搜索边界,并利用边界感知奖励来惩罚不必要的搜索行为,从而引导智能体学习更加高效的搜索策略。这种设计旨在让智能体在推理和搜索之间取得平衡,避免过度依赖外部知识。
技术框架:SAAS的整体框架包含三个主要模块:搜索边界建模机制、边界感知奖励模块和阶段式优化策略。首先,搜索边界建模机制通过对比启用搜索和禁用搜索的rollout来识别当前策略下的搜索边界。然后,边界感知奖励模块将搜索边界信息转化为轨迹级别的惩罚,抑制不必要的搜索。最后,阶段式优化策略采用顺序课程学习,先优化推理能力,再进行搜索正则化,避免奖励黑客现象。
关键创新:SAAS的关键创新在于引入了动态的自感知能力,使智能体能够根据自身知识水平和当前状态来调节搜索行为。与现有方法相比,SAAS不是简单地预设搜索次数或阈值,而是通过强化学习来学习最优的搜索策略。这种自适应的搜索策略能够更有效地利用外部知识,同时避免过度搜索。
关键设计:搜索边界建模机制通过计算启用搜索和禁用搜索的rollout之间的差异来估计搜索边界。边界感知奖励模块使用一个奖励函数,该函数根据智能体的搜索行为和搜索边界信息来计算奖励值。阶段式优化策略采用两个阶段:第一阶段侧重于优化推理能力,第二阶段侧重于搜索正则化。具体的损失函数和网络结构细节在论文中有详细描述(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAAS能够在保持准确性的前提下,显著减少Agentic搜索中的过度搜索行为。具体来说,SAAS在多个基准测试中,将过度搜索的次数降低了XX%(具体数值未知),同时保持了与现有方法相当的准确率。这些结果证明了SAAS框架的有效性和优越性。
🎯 应用场景
SAAS框架可应用于各种需要Agentic搜索的场景,例如问答系统、知识图谱推理、智能客服等。通过减少过度搜索,SAAS能够显著降低计算成本和延迟,提高系统的效率和用户体验。未来,SAAS可以进一步扩展到更复杂的任务中,例如多智能体协作和机器人导航。
📄 摘要(原文)
Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code and implementation details are released at https://github.com/XMUDeepLIT/SAAS.