Scaling Teams or Scaling Time? Memory Enabled Lifelong Learning in LLM Multi-Agent Systems

📄 arXiv: 2604.03295 📥 PDF

作者: Shanglin Wu, Yuyang Luo, Yueqing Liang, Kaiwen Shi, Yanfang Ye, Ali Payani, Kai Shu

分类: cs.MA, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出LLMA-Mem框架,通过记忆增强提升LLM多智能体系统在长期任务中的性能和效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 终身学习 记忆增强 知识共享

📋 核心要点

  1. 现有研究缺乏对LLM多智能体系统中团队规模和长期学习能力在实际成本约束下相互作用的深入理解。
  2. 论文提出LLMA-Mem框架,通过灵活的记忆拓扑结构,支持LLM多智能体系统的终身学习,提升长期任务性能。
  3. 实验表明,LLMA-Mem在编码、研究和数据库环境中,能有效提升长期性能并降低成本,揭示了非单调的扩展规律。

📝 摘要(中文)

本文研究了LLM多智能体系统在扩展规模时的两种维度:增加智能体数量和通过长期经验积累进行改进。现有工作分别研究了这些维度,但它们在实际成本约束下的相互作用尚不清楚。本文提出了一个多智能体系统的概念性扩展视图,该视图共同考虑了团队规模和终身学习能力,并研究了记忆设计如何影响这一格局。为此,我们提出了LLMA-Mem,这是一个用于LLM多智能体系统的终身记忆框架,支持灵活的记忆拓扑结构。我们在MultiAgentBench上,针对编码、研究和数据库环境评估了LLMA-Mem。实验结果表明,LLMA-Mem在降低成本的同时,始终提高了长期性能。我们的分析进一步揭示了一个非单调的扩展格局:较大的团队并不总是产生更好的长期性能,当记忆更好地支持经验的重用时,较小的团队可以胜过较大的团队。这些发现将记忆设计定位为一种更有效、更高效地扩展多智能体系统的实用方法。

🔬 方法详解

问题定义:论文旨在解决LLM多智能体系统在长期任务中,如何有效利用历史经验进行学习和优化的问题。现有方法要么侧重于增加智能体数量,要么独立研究长期学习,忽略了两者在实际成本约束下的相互作用。此外,如何设计有效的记忆机制,支持智能体在长期任务中重用和整合经验,也是一个挑战。

核心思路:论文的核心思路是通过引入一个灵活的记忆框架,使LLM多智能体系统能够存储、检索和利用历史经验。通过精心设计的记忆拓扑结构,不同的智能体可以共享和交换信息,从而实现更有效的长期学习和任务执行。这种方法旨在优化团队规模和长期学习能力之间的平衡,以在成本约束下实现最佳性能。

技术框架:LLMA-Mem框架包含以下主要模块:1) 经验存储模块,用于存储智能体在任务执行过程中产生的经验数据;2) 记忆拓扑模块,定义了智能体之间共享和交换信息的结构;3) 经验检索模块,用于根据当前任务状态检索相关的历史经验;4) 经验利用模块,用于将检索到的经验融入到智能体的决策过程中。整个流程包括智能体执行任务、生成经验、存储经验、检索经验和利用经验进行决策等环节。

关键创新:LLMA-Mem的关键创新在于其灵活的记忆拓扑结构,允许智能体之间以不同的方式共享和交换信息。这种设计使得系统能够根据任务的特点和智能体的角色,动态地调整信息流,从而实现更有效的知识共享和协作。此外,该框架还考虑了成本约束,旨在在有限的资源下实现最佳的长期性能。

关键设计:记忆拓扑结构的设计是关键。论文可能探索了多种拓扑结构,例如星型、环形、网状等,并分析了它们在不同任务场景下的性能。经验检索模块可能采用了基于相似度的检索方法,例如余弦相似度或语义相似度。经验利用模块可能采用了不同的融合策略,例如直接拼接、注意力机制或强化学习等。具体的参数设置和损失函数等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMA-Mem在MultiAgentBench的编码、研究和数据库环境中,均能显著提升长期任务的性能。具体而言,LLMA-Mem在降低成本的同时,始终优于基线方法。此外,实验还揭示了团队规模与长期性能之间的非单调关系,表明较小的团队在适当的记忆支持下,可以超越较大的团队。

🎯 应用场景

该研究成果可应用于各种需要长期协作和知识积累的多智能体系统,例如:协同软件开发、科研团队协作、智能客服系统、金融风险管理等。通过记忆增强,这些系统可以更好地利用历史经验,提高效率和决策质量,从而在复杂环境中取得更好的表现。

📄 摘要(原文)

Large language model (LLM) multi-agent systems can scale along two distinct dimensions: by increasing the number of agents and by improving through accumulated experience over time. Although prior work has studied these dimensions separately, their interaction under realistic cost constraints remains unclear. In this paper, we introduce a conceptual scaling view of multi-agent systems that jointly considers team size and lifelong learning ability, and we study how memory design shares this landscape. To this end, we propose \textbf{LLMA-Mem}, a lifelong memory framework for LLM multi-agent systems under flexible memory topologies. We evaluate LLMA-Mem on \textsc{MultiAgentBench} across coding, research, and database environments. Empirically, LLMA-Mem consistently improves long-horizon performance over baselines while reducing cost. Our analysis further reveals a non-monotonic scaling landscape: larger teams do not always produce better long-term performance, and smaller teams can outperform larger ones when memory better supports the reuse of experience. These findings position memory design as a practical path for scaling multi-agent systems more effectively and more efficiently over time.