SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research
作者: Pu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou
分类: cs.AI
发布日期: 2026-06-08
💡 一句话要点
提出SearchSwarm以解决长时域深度研究中的任务委派智能问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时域任务 委派智能 任务分解 大型语言模型 深度研究
📋 核心要点
- 现有方法在处理复杂长时域任务时,面临上下文窗口有限的问题,导致任务委派智能不足。
- 论文提出了一种新颖的引导工具,帮助模型进行高质量的任务分解和委派,从而提升委派智能。
- 实验结果显示,SearchSwarm-30B-A3B在多个基准测试中表现优异,超越了同规模的其他模型。
📝 摘要(中文)
大型语言模型越来越被期望处理复杂的、长时域的现实任务,而这些任务的上下文需求可能无限增长,然而模型的上下文窗口仍然是有限的。近期的研究探索了一种范式,其中主代理分解任务并将子任务分派给子代理,后者执行并仅返回总结结果,从而节省主代理的上下文预算。然而,良好地执行这一过程需要委派智能:即分解复杂任务、判断何时以及委派什么的能力,并将返回的结果整合到持续的工作流程中。为填补这一空白,本文提出了一种针对深度研究的初步探索,设计了一种引导模型进行高质量任务分解和委派的工具,同时约束子代理正确返回结果以支持主代理的工作流程。最终模型SearchSwarm-30B-A3B在BrowseComp和BrowseComp-ZH上分别取得68.1和73.3的成绩,成为同规模模型中的最佳结果。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在处理复杂长时域任务时的委派智能不足问题。现有方法在任务分解和结果整合方面存在显著的局限性,难以有效利用有限的上下文窗口。
核心思路:论文的核心解决思路是设计一个引导工具,帮助主代理进行高效的任务分解和委派,确保子代理返回的结果能够支持主代理的工作流程。通过这种方式,主代理可以更好地管理上下文预算。
技术框架:整体架构包括主代理和多个子代理,主代理负责任务分解和结果整合,而子代理则执行具体的子任务并返回总结结果。引导工具在此过程中提供支持,确保任务分解的质量。
关键创新:最重要的技术创新点在于引入了委派智能的概念,通过引导工具生成高质量的任务分解决策,并将这些决策作为监督微调数据,内化到模型权重中。这一方法与现有的简单任务分派方法有本质区别。
关键设计:在模型训练中,采用了特定的损失函数来优化任务分解的质量,并设计了适应性强的网络结构,以便更好地处理长时域任务的复杂性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SearchSwarm-30B-A3B在BrowseComp和BrowseComp-ZH基准测试中分别取得68.1和73.3的成绩,显著优于同规模的其他模型,展示了其在长时域任务处理中的卓越性能。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动化研究工具和复杂任务管理系统等。通过提升模型的委派智能,能够更高效地处理长时域的复杂任务,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.