Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

📄 arXiv: 2604.11753v1 📥 PDF

作者: Yoonsang Lee, Howard Yen, Xi Ye, Danqi Chen

分类: cs.CL

发布日期: 2026-04-13


💡 一句话要点

提出AggAgent,通过智能体聚合实现长程Agent任务的并行扩展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic Aggregation 并行计算 长程Agent任务 智能体聚合 深度研究

📋 核心要点

  1. 现有Agent任务并行扩展方法难以有效聚合长程、多轮、工具增强的轨迹信息,导致性能瓶颈。
  2. AggAgent将并行轨迹视为环境,利用轻量级工具进行信息检索和综合,实现高效的轨迹聚合。
  3. 实验表明,AggAgent在多个基准测试中显著优于现有聚合方法,尤其在深度研究任务中提升明显。

📝 摘要(中文)

本文研究了长程Agent任务的并行测试时扩展,例如Agent搜索和深度研究,其中并行生成多个轨迹并将其聚合为最终响应。虽然这种扩展已被证明对思维链推理有效,但Agent任务带来了独特的挑战:轨迹长、多轮、工具增强,且输出通常是开放式的。仅聚合最终答案会丢弃轨迹中的丰富信息,而连接所有轨迹会超出模型的上下文窗口。为了解决这个问题,我们提出了AggAgent,一个将并行轨迹视为环境的聚合Agent。我们为其配备了轻量级工具,以检查候选解决方案并在轨迹中搜索,使其能够按需导航和综合信息。在六个基准测试和三个模型系列(GLM-4.7、Qwen3.5、MiniMax-M2.5)中,AggAgent优于所有现有的聚合方法——平均绝对值高达5.3%,在两个深度研究任务中高达10.3%——同时增加的开销最小,因为聚合成本保持在单个Agent轨迹的范围内。我们的研究结果表明,Agent聚合是并行测试时扩展的一种有效且经济高效的方法。

🔬 方法详解

问题定义:论文旨在解决长程Agent任务在并行测试时扩展中,如何有效聚合多个Agent轨迹信息的问题。现有方法要么仅使用最终答案,损失了中间过程信息;要么直接拼接所有轨迹,超出模型上下文窗口限制,导致性能下降。

核心思路:论文的核心思路是将多个并行Agent轨迹视为一个环境,设计一个聚合Agent (AggAgent),使其能够像在真实环境中一样,通过工具来观察、检索和综合这些轨迹中的信息,从而做出最终决策。这种方法避免了信息丢失和上下文超限的问题。

技术框架:AggAgent的整体框架如下:首先,并行运行多个Agent,生成多个轨迹。然后,AggAgent接收这些轨迹作为输入,并使用工具来选择性地观察和检索轨迹中的信息。AggAgent根据检索到的信息进行推理和综合,最终生成最终的答案。这个过程可以看作是AggAgent在一个由并行轨迹构成的环境中进行探索和学习。

关键创新:最重要的技术创新点在于将并行Agent轨迹视为一个环境,并设计一个专门的Agent来聚合这些轨迹的信息。与传统的聚合方法不同,AggAgent不是简单地选择或拼接轨迹,而是通过智能地探索和利用轨迹中的信息来做出决策。这种方法更灵活、更有效,并且能够更好地利用并行计算的优势。

关键设计:AggAgent的关键设计包括:1) 轻量级工具:AggAgent配备了用于观察和检索轨迹信息的轻量级工具,例如搜索工具和摘要工具。这些工具使得AggAgent能够高效地访问和理解轨迹中的信息。2) 奖励函数:AggAgent的训练目标是最大化最终答案的质量。奖励函数可以根据任务的特点进行设计,例如,在搜索任务中,奖励函数可以基于搜索结果的相关性。3) 上下文管理:AggAgent需要有效地管理上下文信息,以避免上下文超限的问题。论文可能采用了滑动窗口或信息摘要等技术来压缩上下文信息。

📊 实验亮点

实验结果表明,AggAgent在六个基准测试中均优于现有聚合方法,平均绝对提升高达5.3%,在深度研究任务中提升高达10.3%。此外,AggAgent的聚合成本保持在单个Agent轨迹的范围内,表明其具有良好的可扩展性和效率。实验结果验证了Agentic Aggregation作为并行测试时扩展的有效性和经济性。

🎯 应用场景

该研究成果可广泛应用于需要并行Agent协作的复杂任务中,例如智能搜索、自动化研究、复杂问题求解等。通过Agentic Aggregation,可以显著提升Agent系统的效率和性能,加速相关领域的创新和发展。未来,该技术有望应用于更广泛的领域,例如智能客服、自动化内容生成等。

📄 摘要(原文)

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.