StackPlanner: A Centralized Hierarchical Multi-Agent System with Task-Experience Memory Management
作者: Ruizhe Zhang, Xinke Jiang, Zhibang Yang, Zhixin Zhang, Jiaran Gao, Yuzhen Xiao, Hongbin Lai, Xu Chu, Junfeng Zhao, Yasha Wang
分类: cs.AI
发布日期: 2026-01-09
💡 一句话要点
StackPlanner:具任务经验记忆管理的分层集中式多智能体系统
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 分层架构 记忆管理 强化学习 任务分解
📋 核心要点
- 集中式多智能体系统在复杂任务中表现出潜力,但缺乏有效的记忆管理导致长时程协作不稳定。
- StackPlanner通过分层架构和显式记忆控制,解耦高级协调和子任务执行,提升记忆效率。
- StackPlanner利用结构化经验记忆和强化学习,学习并重用协调经验,实验证明其有效性。
📝 摘要(中文)
基于大型语言模型的多智能体系统,特别是集中式架构,在复杂和知识密集型任务中展现出强大的潜力。然而,由于缺乏记忆管理,中央智能体常常面临不稳定的长时程协作问题,导致上下文膨胀、误差累积和较差的跨任务泛化能力。为了解决任务级记忆效率低下和无法重用协调经验的问题,我们提出了StackPlanner,一个具有显式记忆控制的分层多智能体框架。StackPlanner通过将高级协调与子任务执行分离,并进行主动的任务级记忆控制,以及通过结构化的经验记忆和强化学习来学习检索和利用可重用的协调经验,从而应对这些挑战。在多个深度搜索和智能体系统基准测试上的实验表明,我们的方法在实现可靠的长时程多智能体协作方面是有效的。
🔬 方法详解
问题定义:论文旨在解决集中式多智能体系统中,由于缺乏有效的记忆管理机制,导致在长时程协作任务中出现的上下文膨胀、误差累积以及跨任务泛化能力差的问题。现有方法难以在任务级别上进行有效的记忆控制,并且无法充分利用和重用历史的协作经验。
核心思路:论文的核心思路是引入分层架构和显式记忆控制机制,将高级协调与子任务执行解耦。通过主动的任务级记忆控制,减少上下文膨胀,并利用结构化的经验记忆和强化学习,学习并重用历史的协作经验,从而提升多智能体系统的协作效率和泛化能力。
技术框架:StackPlanner采用分层架构,包含一个中央规划器(Central Planner)和多个执行器(Executor)。中央规划器负责进行高级的任务分解和协调,并维护一个任务经验记忆库。执行器负责执行具体的子任务。整体流程如下:1) 中央规划器接收任务,进行任务分解,并根据任务经验记忆库中的经验,生成子任务序列。2) 中央规划器将子任务分配给相应的执行器。3) 执行器执行子任务,并将执行结果返回给中央规划器。4) 中央规划器根据执行结果更新任务经验记忆库。
关键创新:论文的关键创新在于:1) 提出了分层架构,将高级协调与子任务执行解耦,降低了单个智能体的复杂性。2) 引入了显式的任务级记忆控制机制,有效减少了上下文膨胀。3) 利用结构化的经验记忆和强化学习,实现了协调经验的重用,提升了系统的泛化能力。
关键设计:任务经验记忆库采用结构化存储,每个经验包含任务描述、子任务序列、执行结果等信息。强化学习采用策略梯度方法,目标是学习如何从任务经验记忆库中选择合适的经验,以指导任务分解和协调。具体参数设置和网络结构在论文中未详细说明,属于未知信息。
📊 实验亮点
实验结果表明,StackPlanner在多个深度搜索和智能体系统基准测试中表现出色,能够实现可靠的长时程多智能体协作。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。但论文强调了StackPlanner在解决上下文膨胀、误差累积和跨任务泛化能力差等问题上的有效性。
🎯 应用场景
StackPlanner适用于需要多智能体协作的复杂任务,例如机器人协作、自动驾驶、智能交通管理、供应链优化等。通过提升多智能体系统的协作效率和泛化能力,可以降低人工干预,提高自动化水平,从而在工业、交通、物流等领域带来显著的经济效益和社会价值。未来,该研究可以进一步扩展到更广泛的多智能体应用场景。
📄 摘要(原文)
Multi-agent systems based on large language models, particularly centralized architectures, have recently shown strong potential for complex and knowledge-intensive tasks. However, central agents often suffer from unstable long-horizon collaboration due to the lack of memory management, leading to context bloat, error accumulation, and poor cross-task generalization. To address both task-level memory inefficiency and the inability to reuse coordination experience, we propose StackPlanner, a hierarchical multi-agent framework with explicit memory control. StackPlanner addresses these challenges by decoupling high-level coordination from subtask execution with active task-level memory control, and by learning to retrieve and exploit reusable coordination experience via structured experience memory and reinforcement learning. Experiments on multiple deep-search and agent system benchmarks demonstrate the effectiveness of our approach in enabling reliable long-horizon multi-agent collaboration.