Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

📄 arXiv: 2606.06011v1 📥 PDF

作者: Christian Llanes, Spencer W. Jensen, Samuel Coogan

分类: cs.RO, cs.LG, cs.MA

发布日期: 2026-06-04

备注: 12 pages, 8 figures, 7 tables


💡 一句话要点

提出多智能体演员-评论家模型预测控制以解决协作任务中的安全性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 模型预测控制 协作策略 安全性 动态可行性 算法优化 无人机协作

📋 核心要点

  1. 现有的多智能体控制方法在处理复杂协作任务时,往往面临安全性和动态可行性不足的问题。
  2. 本论文提出的MA-AC-MPC算法结合了MARL与模型预测控制,旨在提高多智能体协作任务的安全性和效率。
  3. 实验结果显示,MA-AC-MPC在多智能体追逐-逃避场景中表现优异,成功率显著高于传统方法。

📝 摘要(中文)

本研究提出了一种框架,将多智能体强化学习(MARL)与基于模型的控制相结合,以实现协作多智能体任务中的安全和动态可行的行动。多智能体强化学习能够从离散的非可微奖励中学习协作策略,而模型预测控制则在短时间内提供稳健且安全的动态可行行动。我们提出了一种扩展的演员-评论家模型预测控制算法,称为多智能体演员-评论家模型预测控制(MA-AC-MPC),并在多智能体追逐-逃避场景中验证了该算法的能力。实验表明,MA-AC-MPC在硬件环境中实现了100%的成功率,而MA-AC-MLP仅为60%。

🔬 方法详解

问题定义:本论文旨在解决多智能体协作任务中的安全性和动态可行性问题。现有方法在复杂环境中难以保证智能体的安全行动,尤其是在长时间规划的情况下。

核心思路:论文提出的MA-AC-MPC算法通过结合多智能体强化学习与模型预测控制,利用MARL学习协作策略,同时确保在短时间内进行安全的动态规划。

技术框架:该框架主要包括两个模块:多智能体强化学习模块用于学习协作策略,模型预测控制模块用于生成安全的动态可行行动。算法通过演员-评论家结构进行优化,确保在动态环境中快速响应。

关键创新:MA-AC-MPC的核心创新在于将模型预测控制与多智能体强化学习相结合,克服了传统方法在安全性和动态可行性上的不足,提供了更为稳健的解决方案。

关键设计:在算法设计中,关键参数包括学习率、折扣因子和模型预测控制的时间步长。损失函数设计考虑了协作奖励和安全约束,网络结构采用了深度神经网络以适应复杂的策略学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MA-AC-MPC在多智能体追逐-逃避场景中实现了100%的成功率,而使用多层感知器模型(MA-AC-MLP)时成功率仅为60%。这一显著提升展示了MA-AC-MPC在动态环境中的优势和鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括无人机编队、自动驾驶车辆协作以及机器人团队任务等。通过提高多智能体系统的安全性和效率,MA-AC-MPC算法能够在实际应用中显著提升任务完成的成功率,具有重要的实际价值和未来影响。

📄 摘要(原文)

In this work, we propose a framework that combines multi-agent reinforcement learning (MARL) with model-based control to achieve safe, dynamically feasible actions in cooperative multi-agent tasks. Multi-agent reinforcement learning provides the advantage of learning cooperative policies for multi-agent teams from discrete non-differentiable rewards in a long planning horizon. Model-predictive control is robust and offers safe, dynamically feasible actions in a fast replanning framework for short horizons. We propose an algorithm that extends actor-critic model predictive control for MARL which we refer to as multi-agent actor-critic model predictive control (MA-AC-MPC). We demonstrate the capabilities of this algorithm by applying it to a multi-agent pursuit-evasion scenario. Specifically, we compare the evader team's strategy using the MA-AC-MPC model and a multi-layer perceptron model (MA-AC-MLP). The pursuer team uses augmented proportional navigation as it is accepted as an advanced adversarial control law. We also provide an example with a heterogeneous environment where a drone and omni-wheeled rover cooperate to achieve repeatable and successful landing with 100% success rate in hardware for MA-AC-MPC compared to 60% for MA-AC-MLP. We demonstrate the robustness of the proposed MA-AC-MPC algorithm in hardware for both environments.