Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search

📄 arXiv: 2601.04703v1 📥 PDF

作者: Yiqun Chen, Lingyong Yan, Zixuan Yang, Erhan Zhang, Jiashu Zhao, Shuaiqiang Wang, Dawei Yin, Jiaxin Mao

分类: cs.AI

发布日期: 2026-01-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出M-ASK框架,解耦Agentic搜索中的搜索行为与知识管理,提升多跳问答性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic搜索 多Agent系统 知识管理 多跳问答 大型语言模型

📋 核心要点

  1. 现有Agentic搜索系统依赖单体Agent,存在推理输出无约束、奖励稀疏、搜索噪声大等问题。
  2. M-ASK框架将Agentic搜索解耦为搜索行为Agent和知识管理Agent,各司其职,减少干扰。
  3. M-ASK采用turn-level奖励,为搜索决策和知识更新提供细粒度监督,实现更稳定的训练。

📝 摘要(中文)

Agentic搜索通过使大型语言模型(LLM)能够交错推理和工具使用,成为复杂信息检索的一种有前景的范例。然而,现有的系统依赖于单体Agent,存在结构性瓶颈,包括膨胀轨迹的无约束推理输出、复杂化信用分配的稀疏结果级奖励以及破坏学习稳定性的随机搜索噪声。为了解决这些挑战,我们提出了M-ASK(多Agent搜索和知识)框架,该框架将Agentic搜索显式地解耦为两个互补的角色:搜索行为Agent,负责规划和执行搜索动作;知识管理Agent,负责聚合、过滤和维护紧凑的内部上下文。这种分解使每个Agent能够专注于明确定义的子任务,并减少搜索和上下文构建之间的干扰。此外,为了实现稳定的协调,M-ASK采用turn-level奖励,为搜索决策和知识更新提供细粒度的监督。在多跳问答基准上的实验表明,M-ASK优于强大的基线,不仅实现了卓越的答案准确性,而且实现了显着更稳定的训练动态。

🔬 方法详解

问题定义:现有Agentic搜索方法依赖于单体架构,导致推理过程冗长、难以进行有效的信用分配,并且容易受到随机搜索噪声的影响,最终影响搜索效率和答案准确性。这些问题限制了Agentic搜索在复杂信息检索任务中的应用。

核心思路:M-ASK的核心思路是将Agentic搜索过程解耦为两个独立的Agent:搜索行为Agent和知识管理Agent。搜索行为Agent专注于规划和执行搜索动作,而知识管理Agent负责聚合、过滤和维护内部知识上下文。通过这种解耦,每个Agent可以专注于自己的子任务,从而减少了搜索和知识管理之间的干扰,提高了整体效率。

技术框架:M-ASK框架包含两个主要模块:搜索行为Agent和知识管理Agent。搜索行为Agent负责根据当前状态规划搜索动作,并执行这些动作以获取新的信息。知识管理Agent负责接收来自搜索行为Agent的信息,并将其聚合到内部知识上下文中。该Agent还负责过滤掉冗余或不相关的信息,以保持上下文的紧凑性。两个Agent通过共享信息进行协作,共同完成搜索任务。

关键创新:M-ASK的关键创新在于将Agentic搜索过程解耦为两个独立的Agent,并引入了turn-level奖励机制。这种解耦使得每个Agent可以专注于自己的子任务,从而提高了整体效率。Turn-level奖励机制为搜索决策和知识更新提供了细粒度的监督,从而提高了训练的稳定性。

关键设计:M-ASK使用Transformer架构作为Agent的基础模型。搜索行为Agent和知识管理Agent都使用Transformer编码器来处理输入信息,并使用Transformer解码器来生成输出。Turn-level奖励函数被设计为衡量每个Agent在每个turn的贡献,并用于更新Agent的参数。具体而言,奖励函数考虑了搜索动作的有效性和知识更新的质量。

📊 实验亮点

在多跳问答基准测试中,M-ASK框架优于现有的单体Agent方法。实验结果表明,M-ASK不仅提高了答案的准确性,还显著提高了训练的稳定性。具体而言,M-ASK在某些基准测试中实现了超过10%的性能提升,并且训练过程中的方差明显降低。

🎯 应用场景

M-ASK框架可应用于各种需要复杂信息检索的场景,例如智能客服、研究辅助、决策支持等。通过将搜索和知识管理解耦,M-ASK可以更有效地利用外部信息,提供更准确、更全面的答案。未来,该框架可以扩展到其他类型的Agentic任务,例如机器人导航和自动驾驶。

📄 摘要(原文)

Agentic search has emerged as a promising paradigm for complex information seeking by enabling Large Language Models (LLMs) to interleave reasoning with tool use. However, prevailing systems rely on monolithic agents that suffer from structural bottlenecks, including unconstrained reasoning outputs that inflate trajectories, sparse outcome-level rewards that complicate credit assignment, and stochastic search noise that destabilizes learning. To address these challenges, we propose \textbf{M-ASK} (Multi-Agent Search and Knowledge), a framework that explicitly decouples agentic search into two complementary roles: Search Behavior Agents, which plan and execute search actions, and Knowledge Management Agents, which aggregate, filter, and maintain a compact internal context. This decomposition allows each agent to focus on a well-defined subtask and reduces interference between search and context construction. Furthermore, to enable stable coordination, M-ASK employs turn-level rewards to provide granular supervision for both search decisions and knowledge updates. Experiments on multi-hop QA benchmarks demonstrate that M-ASK outperforms strong baselines, achieving not only superior answer accuracy but also significantly more stable training dynamics.\footnote{The source code for M-ASK is available at https://github.com/chenyiqun/M-ASK.}