DM$^3$-Nav: Decentralized Multi-Agent Multimodal Multi-Object Semantic Navigation

作者: Amin Kashiri, Atharva Jamsandekar, Yasin Yazıcıoğlu

分类: cs.MA, cs.RO

发布日期: 2026-04-23

💡 一句话要点

提出DM$^3$-Nav，解决多智能体多模态多目标语义导航中的去中心化协同问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 去中心化导航 语义导航 多模态融合 任务分配

📋 核心要点

现有多智能体导航方法依赖中央协调或全局地图，存在单点故障风险且扩展性受限。
DM$^3$-Nav通过点对点通信、意图广播和距离加权前沿选择，实现去中心化协同导航。
实验表明，DM$^3$-Nav在性能上可与集中式方法媲美，并在真实环境中成功部署。

📝 摘要（中文）

DM$^3$-Nav是一个完全去中心化的多智能体语义导航系统，支持多模态开放词汇目标指定和多目标任务。该系统无需中央协调器、全局地图聚合或运行时共享全局状态即可运行。机器人自主运行，并通过临时的两两通信进行协调，交换本地地图、目标状态和导航意图，无需同步。一种隐式的任务分配机制，结合了意图广播和距离加权的前沿区域选择，减少了冗余探索，同时保持了去中心化运行。在HM3DSem场景中使用HM3Dv0.2和GOAT-Bench数据集的评估表明，DM$^3$-Nav在消除集中式架构中固有的单点故障的同时，匹配或超过了集中式和共享地图的基线。最后，我们在真实的办公环境中，使用两个移动机器人验证了该方法，证明了完全依赖于板载传感和计算的成功部署。

🔬 方法详解

问题定义：现有集中式多智能体导航方法依赖于中央协调器或全局地图，这导致了单点故障的风险，并且在智能体数量增加时，系统扩展性会受到限制。此外，这些方法通常需要共享全局状态，这在实际应用中可能难以实现，尤其是在通信受限或环境未知的情况下。因此，需要一种去中心化的多智能体导航系统，能够在没有中央协调和全局信息的情况下，实现高效的协同导航。

核心思路：DM$^3$-Nav的核心思路是实现完全去中心化的多智能体协同导航。每个智能体独立运行，通过点对点通信与其他智能体交换信息，包括局部地图、目标状态和导航意图。通过意图广播和距离加权的前沿区域选择，智能体能够隐式地进行任务分配，减少冗余探索，并避免单点故障。

技术框架：DM$^3$-Nav的整体框架包括以下几个主要模块：1) 局部地图构建：每个智能体使用自身的传感器数据构建局部地图。2) 目标指定：系统支持多模态开放词汇目标指定，允许用户使用自然语言或图像指定目标。3) 意图广播：每个智能体广播其导航意图，包括目标位置和当前状态。4) 距离加权前沿选择：智能体根据其他智能体的意图和自身与前沿区域的距离，选择下一个探索目标。5) 点对点通信：智能体之间通过点对点通信交换局部地图、目标状态和导航意图。

关键创新：DM$^3$-Nav的关键创新在于其完全去中心化的架构和隐式的任务分配机制。与传统的集中式方法不同，DM$^3$-Nav不需要中央协调器或全局地图，从而避免了单点故障和扩展性问题。隐式的任务分配机制通过意图广播和距离加权的前沿选择，实现了智能体之间的协同，减少了冗余探索，提高了导航效率。

关键设计：距离加权前沿选择是关键设计之一。每个智能体维护一个前沿区域列表，并根据以下公式计算每个前沿区域的权重：权重 = 距离权重 * 意图权重。距离权重基于智能体与前沿区域之间的距离，距离越近，权重越高。意图权重基于其他智能体的意图，如果其他智能体已经选择了该前沿区域作为目标，则该区域的权重会降低。智能体选择权重最高的前沿区域作为下一个探索目标。

🖼️ 关键图片

📊 实验亮点

在HM3DSem场景的实验中，DM$^3$-Nav的性能与集中式和共享地图的基线方法相当，甚至在某些情况下有所超越。在真实的办公环境中，使用两个移动机器人的实验验证了该方法的可行性，证明了DM$^3$-Nav能够完全依赖于板载传感和计算实现成功的部署。

🎯 应用场景

DM$^3$-Nav适用于各种需要多智能体协同导航的场景，例如仓库机器人、搜救行动、环境监测和探索等。其去中心化的特性使其在通信受限或环境未知的场景中具有优势。该研究的未来影响在于推动多智能体系统的自主性和鲁棒性，使其能够更好地适应复杂和动态的环境。

📄 摘要（原文）

We present DM$^3$-Nav, a fully decentralized multi-agent semantic navigation system supporting multimodal open-vocabulary goal specification and multi-object missions. In our setting, decentralization implies operation without a central coordinator, global map aggregation, or shared global state at runtime. Robots operate autonomously and coordinate through ad-hoc pairwise communication, exchanging local maps, goal status, and navigation intent without synchronization. An implicit task allocation mechanism combining intent broadcasting and distance-weighted frontier selection reduces redundant exploration while preserving decentralized operation. Evaluations on HM3DSem scenes using the HM3Dv0.2 and GOAT-Bench datasets demonstrate that DM$^3$-Nav matches or exceeds centralized and shared-map baselines while eliminating single points of failure inherent in centralized architectures. Finally, we validate our approach in a real-world office environment using two mobile robots, demonstrating successful deployment relying entirely on onboard sensing and computation. A video of our real-world experiments is available online: https://drive.google.com/file/d/1QiUSCn5rIvtuTUqtuXLPgmt6S8x9-MCZ/view?usp=drive_link

DM$^3$-Nav: Decentralized Multi-Agent Multimodal Multi-Object Semantic Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理