Decentralized Multi-Agent Systems with Shared Context

📄 arXiv: 2606.10662v1 📥 PDF

作者: Yuzhen Mao, Azalia Mirhoseini

分类: cs.MA, cs.AI

发布日期: 2026-06-09

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出去中心化语言模型以解决多智能体系统的协调瓶颈问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 去中心化系统 多智能体系统 语言模型 任务协调 软件工程 长上下文推理 并行计算

📋 核心要点

  1. 现有的多智能体系统依赖集中式控制,导致随着任务数量增加而出现通信和整合瓶颈。
  2. 本文提出去中心化语言模型(DeLM),通过并行代理和共享上下文实现去中心化协调,提高任务处理效率。
  3. 在SWE-bench Verified上,DeLM在多个指标上超越最强基线,提升幅度达10.5个百分点,同时任务成本降低约50%。

📝 摘要(中文)

多智能体系统(MAS)通过将复杂问题分解为并行子任务来扩展大型语言模型的推理能力。然而,现有的MAS大多依赖于集中式协调,这导致随着子任务数量的增加,控制器成为通信和整合的瓶颈。本文提出去中心化语言模型(DeLM),通过并行代理、共享验证上下文和任务队列实现去中心化协调。代理异步地认领子任务,读取累积进展,进行局部推理,并写回紧凑的验证更新。共享上下文作为共同的通信基础,允许代理在彼此的验证进展上构建,而无需通过中央控制器路由每个更新。实验证明,DeLM在软件工程测试时间扩展和长上下文推理方面均有显著提升。

🔬 方法详解

问题定义:本文旨在解决现有多智能体系统中集中式控制导致的通信瓶颈问题。随着子任务数量的增加,控制器的负担加重,影响系统的整体效率。

核心思路:提出去中心化语言模型(DeLM),通过并行代理和共享验证上下文来实现任务的去中心化协调。代理能够独立认领任务并进行局部推理,从而减少对中央控制器的依赖。

技术框架:DeLM框架包括多个并行代理、一个共享的验证上下文和一个任务队列。代理异步工作,读取进展并提交更新,形成一个高效的协作网络。

关键创新:DeLM的核心创新在于去中心化的协调机制,允许代理在没有中央控制的情况下进行有效的任务分配和结果整合。这一设计显著提高了系统的可扩展性和效率。

关键设计:在实现中,采用了紧凑的更新格式以减少通信开销,并设计了有效的任务队列管理策略,以确保代理能够快速响应和处理任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标上均表现最佳,较最强基线提升达10.5个百分点,同时任务成本降低约50%。在LongBench-v2 Multi-Doc QA上,DeLM在四个前沿模型家族中实现了最高的平均准确率,较最强基线提升达5.7个百分点。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的推理任务、复杂问题的分解与解决、以及需要高效协作的多智能体系统。DeLM的去中心化特性使其在处理大规模任务时具有显著的实际价值,能够在软件工程、自然语言处理等领域产生深远影响。

📄 摘要(原文)

Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. However, most existing MAS rely on centralized orchestration, where a main agent assigns work, collects outputs, and merges results. As the number of subtasks grows, this controller becomes a communication and integration bottleneck. We propose Decentralized Language Models (DeLM), a MAS framework that decentralizes coordination through parallel agents, a shared verified context, and a task queue. Agents asynchronously claim subtasks, read accumulated progress, perform local reasoning, and write back compact verified updates. The shared context acts as a common communication substrate, enabling agents to build on one another's verified progress without routing every update through a central controller. Empirically, DeLM improves both software-engineering test-time scaling and long-context reasoning. On SWE-bench Verified, DeLM achieves the best performance across Avg.@1, Pass@2, and Pass@4, with gains of up to 10.5 percentage points over the strongest baseline, while reducing cost per task by roughly 50%. On LongBench-v2 Multi-Doc QA, DeLM achieves the highest average accuracy across four frontier model families, improving over the strongest baseline by up to 5.7 percentage points. The code is available on our project website at https://yuzhenmao.github.io/DeLM/.