Cooperative Bearing-Only Target Pursuit via Multiagent Reinforcement Learning: Design and Experiment
作者: Jianan Li, Zhikun Wang, Susheng Ding, Shiliang Guo, Shiyu Zhao
分类: cs.MA, cs.RO, eess.SY
发布日期: 2025-03-11 (更新: 2025-06-27)
备注: To appear in the 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025)
💡 一句话要点
提出基于多智能体强化学习的协同方位角目标追踪方法,解决异构环境下的未知目标追踪问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体强化学习 协同追踪 方位角估计 信息滤波器 零样本迁移
📋 核心要点
- 现有方法在复杂环境中,由于异构性和有限视场等挑战,难以实现多智能体协同追踪未知目标。
- 提出一种基于多智能体强化学习的框架,结合统一方位角信息滤波器,实现异构智能体对目标的搜索、定位和追踪。
- 通过调整低级控制增益和谱归一化强化学习算法,实现从仿真到真实的零样本迁移,验证了方法的有效性。
📝 摘要(中文)
本文研究了未知目标的无人集群追踪问题,包括目标状态估计和追踪控制。在状态估计方面,重点关注仅使用方位角信息,因为它易于从视觉传感器获得,并且对于小型、远距离目标有效。针对方位角测量的非线性以及双角度表示的奇异性等挑战,提出了一种统一的仅方位角信息滤波器。该滤波器集成了多个3D方位角测量值,提供了一个简洁的公式,并增强了稳定性和对由有限视场(FoV)导致的目标丢失的恢复能力。在复杂环境中的目标追踪控制方面,由于异构性和有限FoV等挑战,传统的微分博弈或Voronoi分割等方法通常不足。为了解决这些限制,提出了一种新的多智能体强化学习(MARL)框架,使多个异构车辆能够搜索、定位和跟踪目标,同时有效地处理这些挑战。为了弥合sim-to-real差距,提出了两项关键技术:在训练中加入可调节的低级控制增益,以复制真实世界自主地面车辆(AGV)的动力学;并提出了谱归一化RL算法,以提高策略的平滑性和鲁棒性。最后,通过MARL控制器在AGV上的成功零样本迁移,验证了该方法的有效性和实际可行性。
🔬 方法详解
问题定义:论文旨在解决多机器人协同追踪未知目标的问题,尤其是在仅使用方位角信息进行目标状态估计,以及在异构和有限视场等复杂环境下进行追踪控制时所面临的挑战。现有方法,如微分博弈或Voronoi分割,在处理这些复杂环境时表现不足,并且方位角测量固有的非线性和奇异性问题也影响了目标状态估计的准确性和稳定性。
核心思路:论文的核心思路是结合方位角信息滤波器和多智能体强化学习,实现对未知目标的鲁棒追踪。方位角信息滤波器用于解决方位角测量的非线性和奇异性问题,提供稳定的目标状态估计。多智能体强化学习则用于解决复杂环境下的追踪控制问题,通过学习智能体之间的协同策略,实现对目标的有效追踪。
技术框架:整体框架包含两个主要模块:目标状态估计模块和追踪控制模块。目标状态估计模块使用统一方位角信息滤波器,融合多个智能体的方位角测量信息,估计目标的位置和速度。追踪控制模块使用多智能体强化学习,训练智能体学习协同追踪策略。该模块接收目标状态估计模块的输出,并根据当前环境状态,控制智能体的运动。为了实现sim-to-real迁移,还加入了低级控制增益调整和谱归一化强化学习算法。
关键创新:论文的关键创新在于以下几点:1) 提出了一种统一方位角信息滤波器,解决了方位角测量的非线性和奇异性问题,提高了目标状态估计的准确性和稳定性。2) 提出了一种基于多智能体强化学习的追踪控制框架,能够有效地处理异构和有限视场等复杂环境下的追踪控制问题。3) 提出了低级控制增益调整和谱归一化强化学习算法,实现了从仿真到真实的零样本迁移。
关键设计:在方位角信息滤波器中,采用了多个3D方位角测量值的融合,并设计了简洁的公式,以提高稳定性和对目标丢失的恢复能力。在多智能体强化学习中,使用了集中的训练和分散的执行架构,并设计了合适的奖励函数,以鼓励智能体之间的协同行为。为了实现sim-to-real迁移,通过调整低级控制增益来模拟真实AGV的动力学特性,并使用谱归一化技术来提高策略的平滑性和鲁棒性。具体的网络结构和损失函数等细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了所提出方法的有效性。实验结果表明,该方法能够有效地追踪未知目标,并且具有良好的鲁棒性和适应性。通过零样本迁移实验,验证了该方法在真实AGV上的可行性。实验结果表明,该方法在真实环境中也能够实现有效的目标追踪,证明了其在实际应用中的潜力。
🎯 应用场景
该研究成果可应用于无人机集群搜索救援、自主巡逻、环境监测等领域。通过多智能体协同,可以更有效地完成复杂环境下的目标搜索和追踪任务。该方法在军事侦察、安防监控、物流运输等领域具有潜在的应用价值,并为未来智能机器人系统的发展提供了新的思路。
📄 摘要(原文)
This paper addresses the multi-robot pursuit problem for an unknown target, encompassing both target state estimation and pursuit control. First, in state estimation, we focus on using only bearing information, as it is readily available from vision sensors and effective for small, distant targets. Challenges such as instability due to the nonlinearity of bearing measurements and singularities in the two-angle representation are addressed through a proposed uniform bearing-only information filter. This filter integrates multiple 3D bearing measurements, provides a concise formulation, and enhances stability and resilience to target loss caused by limited field of view (FoV). Second, in target pursuit control within complex environments, where challenges such as heterogeneity and limited FoV arise, conventional methods like differential games or Voronoi partitioning often prove inadequate. To address these limitations, we propose a novel multiagent reinforcement learning (MARL) framework, enabling multiple heterogeneous vehicles to search, localize, and follow a target while effectively handling those challenges. Third, to bridge the sim-to-real gap, we propose two key techniques: incorporating adjustable low-level control gains in training to replicate the dynamics of real-world autonomous ground vehicles (AGVs), and proposing spectral-normalized RL algorithms to enhance policy smoothness and robustness. Finally, we demonstrate the successful zero-shot transfer of the MARL controllers to AGVs, validating the effectiveness and practical feasibility of our approach. The accompanying video is available at https://youtu.be/HO7FJyZiJ3E.