Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

📄 arXiv: 2605.07637v1 📥 PDF

作者: Valeriy Vyaltsev, Alsu Sagirova, Anton Andreychuk, Yuri Kuratov, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik

分类: cs.AI, cs.LG, cs.MA

发布日期: 2026-05-08


💡 一句话要点

提出LC-MAPF框架,通过局部通信机制提升大规模多智能体路径规划的协作效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体路径规划 去中心化决策 多智能体强化学习 局部通信 特征共享 机器人协作

📋 核心要点

  1. 现有去中心化MAPF方法多依赖局部观测,缺乏智能体间的信息交互,导致在复杂拥堵场景下协作能力受限。
  2. 论文提出LC-MAPF框架,引入可学习的局部通信模块,通过多轮特征交换实现智能体间的协同决策。
  3. 实验证明该方法在多种未见场景下性能优于现有IL/RL基线,且在保持高可扩展性的同时显著提升了路径规划效率。

📝 摘要(中文)

多智能体路径规划(MAPF)是多机器人轨迹规划的核心抽象,旨在解决共享环境中多个同构智能体的同步移动问题。尽管最优MAPF求解属于NP-hard问题,但开发可扩展且高效的求解器对于物流和搜救等现实应用至关重要。为此,研究界提出了多种基于机器学习的去中心化次优MAPF求解器。这些方法通常将MAPF建模为去中心化部分可观测马尔可夫决策过程(Dec-POMDP),通过强化学习或模仿学习,让智能体基于局部观测做出决策。本文在此基础上引入了一个可学习的通信模块,旨在通过高效的特征共享增强智能体间的协作。我们提出了LC-MAPF(Local Communication for Multi-agent Pathfinding),这是一个可泛化的预训练模型,通过邻近智能体之间的多轮通信交换信息以改善协调。实验表明,该方法在多种未见过的测试场景中,在各项指标上均优于现有的基于模仿学习(IL)和强化学习(RL)的MAPF求解器,且通信机制并未损害模型的可扩展性。

🔬 方法详解

问题定义:论文旨在解决大规模多智能体路径规划(MAPF)中的协作难题。现有去中心化方法通常将每个智能体视为独立的决策主体,仅依赖局部观测,导致在处理高密度环境或复杂冲突时,智能体缺乏全局协调,难以实现最优的避障与路径规划。

核心思路:引入一种轻量级、可学习的局部通信机制。通过允许邻近智能体在决策前进行多轮特征交换,使每个智能体能够感知周围同伴的意图与状态,从而将单纯的局部观测转化为包含邻域协作信息的增强特征表示。

技术框架:LC-MAPF采用去中心化架构,每个智能体包含一个编码器用于处理局部观测,一个通信模块用于与邻居进行多轮信息交互,以及一个策略网络用于输出动作。模型通过预训练方式学习通信协议,在推理阶段实现分布式执行。

关键创新:核心创新在于“多轮局部通信”设计。不同于全局通信带来的高计算开销,该方法仅在局部邻域内进行信息传递,既保留了去中心化方法的可扩展性,又通过多轮迭代显著提升了智能体对环境动态变化的响应能力。

关键设计:通信模块采用了类似于图神经网络(GNN)的消息传递机制,通过可学习的权重矩阵对邻居特征进行聚合。损失函数结合了模仿学习的监督信号与强化学习的奖励函数,确保智能体在学习通信协议的同时,能够优化路径长度与碰撞率等关键指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多种未见过的复杂测试场景中进行,结果显示LC-MAPF在路径成功率、平均路径长度及碰撞率等关键指标上均显著优于现有的IL和RL基线模型。特别是在高密度智能体场景下,该方法通过高效的局部通信机制,在不牺牲系统可扩展性的前提下,实现了比传统方法更优的协调性能。

🎯 应用场景

该研究在自动化仓储物流、多机器人协同搜救以及大规模无人机集群编队等领域具有重要应用价值。通过提升去中心化环境下的协作效率,该方法能有效降低大规模机器人系统在复杂动态环境中的碰撞风险,并显著提高任务执行的吞吐量与鲁棒性。

📄 摘要(原文)

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.