M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

作者: Yukai Feng, Zhiheng Wu, Zhengxing Wu, Junwen Gu, Junzhi Yu

分类: cs.RO, cs.AI

发布日期: 2026-04-21

💡 一句话要点

提出基于Mamba的多智能体群组相对策略优化算法，解决仿生水下机器人协同追逐问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 Mamba 群组相对策略优化 仿生水下机器人 协同追逐

📋 核心要点

仿生水下机器人协同追逐面临长时程决策、部分可观测和机器人间协调的挑战，传统策略学习方法难以兼顾表达性和稳定性。
M$^{2}$GRPO框架融合Mamba策略和群组相对策略优化，利用Mamba捕获时间依赖，注意力机制编码交互，提升信用分配。
实验结果表明，M$^{2}$GRPO在追逐成功率和捕获效率上优于MAPPO等基线方法，验证了其在水下协同追逐中的有效性。

📝 摘要（中文）

本文提出了一种名为基于Mamba的多智能体群组相对策略优化（M$^{2}$GRPO）的新框架，旨在解决仿生水下机器人协同追逐中长时程决策、部分可观测性和机器人间协调等挑战。该框架在中心化训练和分散式执行（CTDE）范式下，集成了选择性状态空间Mamba策略与群组相对策略优化。Mamba策略利用观测历史捕获长时程时间依赖性，并利用基于注意力的关系特征编码智能体间的交互，通过归一化高斯采样产生有界连续动作。为了在不牺牲稳定性的前提下进一步改进信用分配，通过归一化每个episode内智能体之间的奖励来获得群组相对优势，并通过GRPO的多智能体扩展进行优化，显著降低了对训练资源的需求，同时实现了稳定且可扩展的策略更新。大量的仿真和真实水池实验表明，在团队规模和逃避者策略方面，M$^{2}$GRPO在追逐成功率和捕获效率方面始终优于MAPPO和循环基线。总而言之，该框架为仿生机器人系统的协同水下追逐提供了一种实用且可扩展的解决方案。

🔬 方法详解

问题定义：论文旨在解决仿生水下机器人协同追逐任务中，传统多智能体强化学习方法在处理长时程依赖、部分可观测以及智能体间复杂交互时所面临的挑战。现有方法，如基于循环神经网络的策略，难以有效捕捉长期时间依赖关系，且在信用分配方面存在问题，导致训练不稳定和效率低下。

核心思路：论文的核心思路是结合Mamba架构强大的序列建模能力和群组相对策略优化（GRPO）的优势，设计一种新的多智能体强化学习框架。Mamba架构能够有效地捕捉长时程时间依赖关系，而GRPO能够通过相对奖励来改善信用分配，从而提高学习效率和稳定性。

技术框架：M$^{2}$GRPO框架采用中心化训练分散式执行（CTDE）范式。在训练阶段，所有智能体的观测和奖励信息被集中起来用于策略学习。在执行阶段，每个智能体仅根据自身观测独立做出决策。该框架包含以下主要模块：1) 基于Mamba的策略网络，用于生成每个智能体的动作；2) 注意力机制，用于编码智能体之间的交互关系；3) 群组相对优势函数，用于改善信用分配。

关键创新：该论文的关键创新在于将Mamba架构引入到多智能体强化学习中，并结合群组相对策略优化。Mamba架构能够有效地捕捉长时程时间依赖关系，这对于水下机器人协同追逐任务至关重要。此外，群组相对策略优化能够通过相对奖励来改善信用分配，从而提高学习效率和稳定性。与传统的基于RNN的方法相比，Mamba具有更强的序列建模能力和更高的计算效率。

关键设计：Mamba策略网络采用选择性状态空间模型，能够自适应地选择重要的历史信息。注意力机制采用多头注意力，能够捕捉不同类型的智能体间交互关系。群组相对优势函数通过归一化每个episode内智能体之间的奖励来获得，从而消除奖励尺度的影响。损失函数采用策略梯度方法，并结合了熵正则化项，以鼓励探索。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在不同团队规模和逃避者策略下，M$^{2}$GRPO在追逐成功率和捕获效率方面始终优于MAPPO和循环基线。例如，在某些场景下，M$^{2}$GRPO的追逐成功率比MAPPO提高了10%-20%，捕获时间缩短了15%-25%。这些结果表明，M$^{2}$GRPO能够有效地解决水下机器人协同追逐问题。

🎯 应用场景

该研究成果可应用于水下机器人集群协同作业，例如水下搜救、环境监测、资源勘探等。通过提升水下机器人的自主决策和协同能力，可以降低人工干预的需求，提高作业效率和安全性。此外，该方法也可推广到其他多智能体协作任务中，例如无人机编队、机器人足球等。

📄 摘要（原文）

Traditional policy learning methods in cooperative pursuit face fundamental challenges in biomimetic underwater robots, where long-horizon decision making, partial observability, and inter-robot coordination require both expressiveness and stability. To address these issues, a novel framework called Mamba-based multi-agent group relative policy optimization (M$^{2}$GRPO) is proposed, which integrates a selective state-space Mamba policy with group-relative policy optimization under the centralized-training and decentralized-execution (CTDE) paradigm. Specifically, the Mamba-based policy leverages observation history to capture long-horizon temporal dependencies and exploits attention-based relational features to encode inter-agent interactions, producing bounded continuous actions through normalized Gaussian sampling. To further improve credit assignment without sacrificing stability, the group-relative advantages are obtained by normalizing rewards across agents within each episode and optimized through a multi-agent extension of GRPO, significantly reducing the demand for training resources while enabling stable and scalable policy updates. Extensive simulations and real-world pool experiments across team scales and evader strategies demonstrate that M$^{2}$GRPO consistently outperforms MAPPO and recurrent baselines in both pursuit success rate and capture efficiency. Overall, the proposed framework provides a practical and scalable solution for cooperative underwater pursuit with biomimetic robot systems.

M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理