The Five Ws of Multi-Agent Communication: Who Talks to Whom, When, What, and Why -- A Survey from MARL to Emergent Language and LLMs
作者: Jingdi Chen, Hanqing Yang, Zongjun Liu, Carlee Joe-Wong
分类: cs.AI, cs.LG
发布日期: 2026-02-12
备注: Accepted at Transactions on Machine Learning Research (TMLR), 2026
💡 一句话要点
多智能体通信五要素综述:从MARL到涌现语言和LLM
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体通信 多智能体强化学习 涌现语言 大型语言模型 协作 通信协议 序列决策
📋 核心要点
- 现有MARL方法依赖于任务特定的、难以解释的通信协议,限制了其泛化能力和可解释性。
- 该综述以“五个W”为框架,系统性地分析了多智能体通信在MARL、涌现语言和LLM中的演变。
- 总结了不同通信设计选择的权衡,提炼了实用设计模式和开放挑战,为未来混合系统设计提供指导。
📝 摘要(中文)
多智能体序列决策驱动着许多现实世界的系统,从自动驾驶汽车和机器人到协作式AI助手。在动态的、部分可观察的环境中,通信通常是减少不确定性并使协作成为可能的关键。本综述通过五个W(Who, What, When, Why,即谁与谁通信,通信内容是什么,何时通信,以及为什么通信是有益的)来回顾多智能体通信(MA-Comm)。这种框架提供了一种清晰的方式来连接原本独立的研究思路。我们追溯了通信方法在三个主要范式中的演变:多智能体强化学习(MARL)、涌现语言(EL)和基于大型语言模型(LLM)的系统。在MARL中,早期方法使用手工设计的或隐式的协议,随后是为奖励和控制而优化的端到端学习通信。虽然成功,但这些协议通常是特定于任务且难以解释的,这促使了对涌现语言的研究,在涌现语言中,智能体可以通过交互来发展更结构化或符号化的通信。然而,EL方法仍然难以应对基础、泛化和可扩展性问题,这激发了人们对大型语言模型的兴趣,这些模型为更开放的设置中的推理、规划和协作带来了自然语言先验。在MARL、EL和基于LLM的系统中,我们强调了不同的选择如何塑造通信设计,主要的权衡是什么,以及哪些问题仍然没有解决。我们提炼出实用的设计模式和开放的挑战,以支持未来的混合系统,这些系统结合了学习、语言和控制,以实现可扩展和可解释的多智能体协作。
🔬 方法详解
问题定义:多智能体通信旨在解决多个智能体在部分可观测环境中如何有效协作的问题。现有方法,如传统MARL中的手工设计协议,缺乏灵活性和可解释性。涌现语言虽然能学习通信协议,但在基础、泛化和可扩展性方面存在挑战。
核心思路:该综述的核心思路是通过“五个W”框架(Who, What, When, Why)来系统性地分析多智能体通信。这个框架提供了一个统一的视角,将MARL、涌现语言和LLM等不同范式下的通信方法联系起来,从而更好地理解各种方法的优缺点和适用场景。
技术框架:该综述没有提出新的技术框架,而是对现有技术进行了分类和总结。它将多智能体通信的研究分为三个主要范式:MARL、涌现语言和基于LLM的系统。对于每个范式,综述都分析了其通信协议的设计、优缺点以及面临的挑战。
关键创新:该综述的创新之处在于提出了“五个W”框架,并用它来分析和比较不同范式下的多智能体通信方法。这个框架提供了一个更清晰、更结构化的方式来理解多智能体通信,并有助于识别未来的研究方向。
关键设计:该综述没有涉及具体的参数设置或网络结构。它主要关注不同通信协议的设计原则和权衡。例如,在MARL中,通信协议的设计需要考虑智能体之间的信息共享、奖励分配和探索策略。在涌现语言中,通信协议的设计需要考虑语言的表达能力、可学习性和泛化能力。
📊 实验亮点
该综述总结了MARL、涌现语言和LLM在多智能体通信中的应用,并分析了各自的优缺点。例如,MARL方法在特定任务上表现良好,但泛化能力有限;涌现语言方法可以学习更灵活的通信协议,但难以保证语义的明确性;LLM方法具有强大的语言理解和生成能力,但计算成本较高。通过对比分析,该综述为未来的研究方向提供了有益的启示。
🎯 应用场景
该研究对多智能体系统的设计和应用具有广泛的潜在价值。例如,在自动驾驶领域,智能体之间需要进行有效的通信才能安全地协同驾驶。在机器人领域,多个机器人需要协同完成复杂的任务。在协作式AI助手领域,多个AI助手需要协同为用户提供服务。该综述可以帮助研究人员和工程师更好地理解多智能体通信的原理和方法,从而设计出更有效、更可靠的多智能体系统。
📄 摘要(原文)
Multi-agent sequential decision-making powers many real-world systems, from autonomous vehicles and robotics to collaborative AI assistants. In dynamic, partially observable environments, communication is often what reduces uncertainty and makes collaboration possible. This survey reviews multi-agent communication (MA-Comm) through the Five Ws: who communicates with whom, what is communicated, when communication occurs, and why communication is beneficial. This framing offers a clean way to connect ideas across otherwise separate research threads. We trace how communication approaches have evolved across three major paradigms. In Multi-Agent Reinforcement Learning (MARL), early methods used hand-designed or implicit protocols, followed by end-to-end learned communication optimized for reward and control. While successful, these protocols are frequently task-specific and hard to interpret, motivating work on Emergent Language (EL), where agents can develop more structured or symbolic communication through interaction. EL methods, however, still struggle with grounding, generalization, and scalability, which has fueled recent interest in large language models (LLMs) that bring natural language priors for reasoning, planning, and collaboration in more open-ended settings. Across MARL, EL, and LLM-based systems, we highlight how different choices shape communication design, where the main trade-offs lie, and what remains unsolved. We distill practical design patterns and open challenges to support future hybrid systems that combine learning, language, and control for scalable and interpretable multi-agent collaboration.