CRAFT: Grounded Multi-Agent Coordination Under Partial Information
作者: Abhijnan Nath, Hannah VanderHoeven, Nikhil Krishnaswamy
分类: cs.CL, cs.AI
发布日期: 2026-03-26
🔗 代码/项目: GITHUB
💡 一句话要点
CRAFT:部分信息下基于语言的大模型多智能体协作基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体协作 自然语言交流 部分信息 语用推理 大语言模型 基准测试 3D结构构建
📋 核心要点
- 现有方法在部分信息下,大语言模型的多智能体协作能力不足,难以有效协调。
- CRAFT基准将协作任务形式化为多发送者语用推理,通过自然语言构建共享3D结构。
- 实验表明,更强的推理能力并不一定带来更好的协作,多智能体协调仍是挑战。
📝 摘要(中文)
本文提出了CRAFT,一个多智能体基准,用于评估大语言模型在严格部分信息下的语用交流能力。在该设定中,具有互补但不完整视角的多个智能体必须通过自然语言进行协调,以构建一个共享的3D结构,而任何单个智能体都无法完全观察到该结构。我们将此问题形式化为一个多发送者语用推理任务,并提供了一个诊断框架,该框架将失败分解为空间定位、信念建模和语用交流错误,包括对前沿模型和开放权重模型中的行为失败概况的分类。对包括8个开放权重模型和7个前沿模型(包括推理模型)在内的各种模型进行评估后,我们发现更强的推理能力并不能可靠地转化为更好的协调能力:较小的开放权重模型通常与前沿系统相匹配或优于前沿系统,并且改进的个体通信并不能保证成功的协作。这些结果表明,多智能体协调仍然是当前语言模型尚未解决的根本性挑战。代码可在https://github.com/csu-signal/CRAFT找到。
🔬 方法详解
问题定义:论文旨在解决多智能体在部分信息下的协作问题。现有方法在处理此类问题时,面临着智能体之间信息不对称、难以有效沟通和协调的挑战,导致协作效率低下甚至失败。特别是在需要构建共享3D结构的任务中,每个智能体只能观察到部分信息,如何通过自然语言进行有效的交流和推理,从而达成共识,是一个亟待解决的问题。
核心思路:论文的核心思路是将多智能体协作问题形式化为一个多发送者语用推理任务。每个智能体根据自身观察到的局部信息,通过自然语言向其他智能体发送信息,并根据接收到的信息更新自己的信念。通过迭代的交流和推理,智能体们逐步构建对整个3D结构的共同理解,最终达成协作目标。这种方法强调了自然语言在智能体之间协调中的作用,并利用语用推理来提高交流的效率和准确性。
技术框架:CRAFT基准的整体框架包括以下几个主要模块:1) 环境:一个模拟的3D环境,其中包含需要构建的共享结构。2) 智能体:多个智能体,每个智能体只能观察到环境的部分信息。3) 通信通道:智能体之间通过自然语言进行交流的通道。4) 语用推理模块:用于处理和理解智能体之间交流信息的模块。5) 诊断框架:用于评估智能体协作性能并诊断失败原因的模块。该框架将失败分解为空间定位、信念建模和语用交流错误。
关键创新:该论文的关键创新在于提出了一个专门用于评估大语言模型在部分信息下多智能体协作能力的基准CRAFT。与现有的多智能体基准相比,CRAFT更加强调了自然语言在智能体之间协调中的作用,并提供了一个详细的诊断框架,可以帮助研究人员深入了解智能体协作失败的原因。此外,CRAFT还提供了一个多发送者语用推理任务的 formalization,为研究人员提供了一个新的视角来研究多智能体协作问题。
关键设计:CRAFT基准的关键设计包括:1) 3D结构构建任务:该任务要求智能体们协作构建一个共享的3D结构,这需要智能体们进行精确的空间定位和推理。2) 部分信息设定:每个智能体只能观察到环境的部分信息,这增加了智能体之间协调的难度。3) 自然语言通信:智能体之间通过自然语言进行交流,这需要智能体们具备良好的自然语言理解和生成能力。4) 诊断框架:该框架将失败分解为空间定位、信念建模和语用交流错误,并提供了一个行为失败概况的分类,这有助于研究人员深入了解智能体协作失败的原因。
🖼️ 关键图片
📊 实验亮点
实验结果表明,更强的推理能力并不一定带来更好的协作效果。一些较小的开放权重模型在CRAFT基准上的表现甚至优于一些前沿模型。这表明,当前的大语言模型在多智能体协作方面仍然存在很大的提升空间。此外,实验还发现,改进个体通信并不一定能保证成功的协作,这说明多智能体协作是一个复杂的问题,需要综合考虑多个因素。
🎯 应用场景
CRAFT基准的潜在应用领域包括机器人协作、自动驾驶、智能交通、分布式传感器网络等。通过提高大语言模型在部分信息下的多智能体协作能力,可以实现更高效、更可靠的智能系统,从而在实际应用中带来巨大的价值。例如,在机器人协作中,多个机器人可以通过自然语言进行协调,共同完成复杂的任务;在自动驾驶中,多个车辆可以通过共享信息,提高行驶的安全性和效率。
📄 摘要(原文)
We introduce CRAFT, a multi-agent benchmark for evaluating pragmatic communication in large language models under strict partial information. In this setting, multiple agents with complementary but incomplete views must coordinate through natural language to construct a shared 3D structure that no single agent can fully observe. We formalize this problem as a multi-sender pragmatic reasoning task and provide a diagnostic framework that decomposes failures into spatial grounding, belief modeling and pragmatic communication errors, including a taxonomy of behavioral failure profiles in both frontier and open-weight models. Across a diverse set of models, including 8 open-weight and 7 frontier including reasoning models, we find that stronger reasoning ability does not reliably translate to better coordination: smaller open-weight models often match or outperform frontier systems, and improved individual communication does not guarantee successful collaboration. These results suggest that multi-agent coordination remains a fundamentally unsolved challenge for current language models. Our code can be found at https://github.com/csu-signal/CRAFT