Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue

作者: Vardhan Dongre, Dilek Hakkani-Tür

分类: cs.MA, cs.AI, cs.CL

发布日期: 2026-05-13

💡 一句话要点

通过对话对齐世界模型，实现具身多智能体协同

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 具身智能体 多智能体协同 世界模型 自然语言对话 部分可观测性

📋 核心要点

现有具身智能体在部分可观测环境下协同困难，缺乏有效的通信机制来对齐彼此的世界模型。
提出一种基于自然语言对话的协同框架，通过智能体间的通信来共享信息，对齐各自的世界模型。
实验表明，对话虽然能减少行动冲突，但任务成功率反而降低，揭示了表面协同与真正世界模型对齐的差距。

📝 摘要（中文）

具身智能体之间的有效协作不仅需要在共享环境中行动，还需要基于每个智能体对世界不断演变的理解进行交流。当智能体只能部分观察周围环境时，没有通信的协同在理论上是困难的，但通信原则上可以通过允许智能体共享观察结果并对齐其世界模型来弥合这一差距。本文研究了基于LLM的具身智能体是否真正实现了通信能力。我们扩展了PARTNR，这是一个用于协作家庭机器人的基准，增加了一个自然语言对话通道，使两个具有部分可观察性的智能体在任务执行期间能够进行通信。为了评估对话是否导致真正的世界模型对齐，而不是表面上的协同，我们提出了一个框架，用于测量基于每个智能体世界图的世界模型对齐：观察收敛（私有世界模型是否随时间对齐？），信息新颖性（消息是否传达了合作伙伴所缺乏的信息？），以及信念敏感的消息传递（智能体是否对他们的合作伙伴的知识进行建模？）。我们对三个LLM的实验表明，对话减少了40到83个百分点的行动冲突，但相对于无声协同，降低了任务成功率。使用我们的指标，我们描述了表面协同和真正的世界模型对齐之间的差距，并确定了当前模型在这个范围内的位置。

🔬 方法详解

问题定义：论文旨在解决具身多智能体在部分可观测环境下协同的问题。现有方法在缺乏有效通信的情况下，难以对齐智能体各自的世界模型，导致协同效率低下甚至失败。痛点在于如何让智能体在信息不对称的情况下，通过通信来弥合认知差距，实现真正的协同。

核心思路：论文的核心思路是通过引入自然语言对话作为智能体间的通信手段，使智能体能够共享彼此的观察结果和信念，从而逐步对齐各自的世界模型。这种方法旨在超越表面上的协同，实现基于共同理解的深度协同。

技术框架：整体框架基于PARTNR基准进行扩展，增加了自然语言对话通道。两个智能体在执行任务过程中，可以通过对话进行交流。论文提出了一个评估世界模型对齐程度的框架，包含三个关键指标：观察收敛（Observation Convergence）、信息新颖性（Information Novelty）和信念敏感的消息传递（Belief-sensitive Messaging）。这些指标用于量化智能体间世界模型对齐的程度。

关键创新：最重要的创新点在于提出了一个量化世界模型对齐程度的评估框架，该框架不仅关注智能体的行为协同，更关注智能体内部世界模型的对齐情况。这与以往只关注任务完成情况的评估方法有本质区别，能够更深入地理解智能体协同的内在机制。

关键设计：论文的关键设计包括：1) 使用自然语言作为通信媒介，更符合人类的交互方式；2) 设计了三个指标来量化世界模型对齐程度，为深入分析智能体协同行为提供了工具；3) 基于PARTNR基准进行扩展，方便了与其他方法的比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，引入对话后，智能体间的行动冲突减少了40%到83%，但任务成功率却低于无声协同。这表明当前的LLM虽然能够进行对话，但还不能有效地利用对话来对齐世界模型，实现真正的协同。论文提出的评估框架能够有效地量化世界模型对齐程度，为后续研究提供了重要的工具。

🎯 应用场景

该研究成果可应用于协作机器人、智能家居、自动驾驶等领域。例如，在智能家居场景中，多个机器人可以通过对话协同完成复杂的家务任务。在自动驾驶领域，车辆之间可以通过通信共享路况信息，提高行驶安全性。该研究为实现更智能、更高效的多智能体协同系统奠定了基础。

📄 摘要（原文）

Effective collaboration between embodied agents requires more than acting in a shared environment; it demands communication grounded in each agent's evolving understanding of the world. When agents can only partially observe their surroundings, coordination without communication is provably hard, but communication can, in principle, bridge this gap by allowing agents to share observations and align their world models. In this work, we examine whether LLM-based embodied agents actually realize the ability to communicate. We extend PARTNR, a benchmark for collaborative household robotics, with a natural-language dialogue channel that enables two agents with partial observability to communicate during task execution. To evaluate whether dialogue leads to genuine world-model alignment rather than superficial coordination, we propose a framework for measuring world-model alignment defined over per-agent world graphs: observation convergence (do private world models align over time?), information novelty (do messages convey what the partner lacks?), and belief-sensitive messaging (do agents model what their partner knows?). Our experiments across three LLMs reveal that dialogue reduces action conflicts 40 to 83 percentage points but degrades task success relative to silent coordination. Using our metrics, we characterize the gap between superficial coordination and genuine world-model alignment, and identify where current models fall on this spectrum.

Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理