SAFE--MA--RRT: Multi-Agent Motion Planning with Data-Driven Safety Certificates
作者: Babak Esmaeili, Hamidreza Modares
分类: eess.SY, cs.LG, cs.MA, cs.RO, math.OC
发布日期: 2025-09-04
备注: Submitted to IEEE Transactions on Automation Science and Engineering
💡 一句话要点
提出SAFE-MA-RRT,一种基于数据驱动安全证书的多智能体运动规划框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 多智能体系统 运动规划 数据驱动 安全证书 局部不变椭球
📋 核心要点
- 现有方法依赖于精确的系统模型,这在实际复杂环境中难以获得,限制了多智能体运动规划的应用。
- SAFE-MA-RRT通过数据驱动的方式学习智能体的闭环行为,利用局部不变椭球保证动态可行性和安全性。
- 该方法通过仿真验证了在共享约束下,能够为多个智能体生成同步且安全的轨迹,无需运行时重新优化。
📝 摘要(中文)
本文提出了一种完全数据驱动的运动规划框架,用于在共享、充满障碍物的工作空间中运行的同构线性多智能体系统,该系统无需访问显式系统模型。每个智能体通过求解凸半定规划,从实验数据中独立学习其闭环行为,生成局部不变椭球和相应的状态反馈增益。这些椭球以基于网格的航路点为中心,证明了短程转换的动态可行性,并定义了安全的操作区域。基于采样的规划器构建了此类航路点的树,只有当相邻椭球重叠时才允许转换,从而确保不变到不变的转换和连续的安全性。所有智能体同时扩展它们的树,并通过时空预留表进行协调,通过防止同时占用和正面碰撞来保证智能体间的安全。树中的每个成功边都配备了自己的本地控制器,从而无需在运行时重新求解优化问题即可执行。由此产生的轨迹不仅在动态上可行,而且在环境约束和智能体间碰撞方面都是可证明安全的。仿真结果表明,该方法在仅使用数据和凸优化工具的情况下,为共享动力学和约束下的多个智能体合成同步、安全轨迹的有效性。
🔬 方法详解
问题定义:论文旨在解决多智能体系统在共享、有障碍物的工作空间中的安全运动规划问题,尤其是在缺乏精确系统模型的情况下。现有方法通常依赖于精确的系统动力学模型,这在实际应用中很难获得,并且计算复杂度高,难以满足实时性要求。因此,如何在不依赖精确模型的情况下,保证多智能体系统运动的安全性和可行性是一个挑战。
核心思路:论文的核心思路是利用数据驱动的方法学习每个智能体的闭环行为,并使用局部不变椭球来保证运动的安全性。通过实验数据学习状态反馈增益,并构建以网格航路点为中心的局部不变椭球,确保智能体在椭球内部运动时保持安全。同时,利用时空预留表协调多个智能体的运动,避免碰撞。
技术框架:该框架包含以下几个主要模块:1) 数据采集:通过实验数据获取智能体的运动信息。2) 局部不变椭球学习:利用凸半定规划,从实验数据中学习每个智能体的局部不变椭球和状态反馈增益。3) 基于采样的规划:构建基于航路点的树,只有当相邻椭球重叠时才允许转换,确保不变到不变的转换。4) 多智能体协调:通过时空预留表协调多个智能体的运动,避免碰撞。5) 轨迹执行:每个边都配备本地控制器,无需运行时重新求解优化问题。
关键创新:该方法最重要的创新点在于提出了一种完全数据驱动的多智能体运动规划框架,无需依赖精确的系统模型。通过学习局部不变椭球,保证了运动的安全性,并通过时空预留表协调多个智能体的运动,避免碰撞。这种方法降低了对系统模型的依赖,提高了算法的鲁棒性和适应性。
关键设计:关键设计包括:1) 局部不变椭球的形状和大小,需要根据实验数据进行调整,以保证安全性和可行性。2) 时空预留表的粒度,需要根据智能体的运动速度和工作空间的大小进行调整,以保证协调的效率和安全性。3) 凸半定规划的目标函数和约束条件,需要根据具体的智能体动力学和环境约束进行设计,以保证学习的有效性。
📊 实验亮点
仿真结果表明,该方法能够为共享动力学和约束下的多个智能体合成同步、安全的轨迹。该方法仅使用数据和凸优化工具,无需依赖精确的系统模型,降低了算法的复杂度和计算成本。实验结果验证了该方法在多智能体运动规划中的有效性和可行性。
🎯 应用场景
该研究成果可应用于无人机编队飞行、自动驾驶车辆协同控制、多机器人协同作业等领域。在这些场景中,精确的系统模型难以获取,且对安全性和实时性要求较高。该方法能够在不依赖精确模型的情况下,保证多智能体系统的安全运动,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
This paper proposes a fully data-driven motion-planning framework for homogeneous linear multi-agent systems that operate in shared, obstacle-filled workspaces without access to explicit system models. Each agent independently learns its closed-loop behavior from experimental data by solving convex semidefinite programs that generate locally invariant ellipsoids and corresponding state-feedback gains. These ellipsoids, centered along grid-based waypoints, certify the dynamic feasibility of short-range transitions and define safe regions of operation. A sampling-based planner constructs a tree of such waypoints, where transitions are allowed only when adjacent ellipsoids overlap, ensuring invariant-to-invariant transitions and continuous safety. All agents expand their trees simultaneously and are coordinated through a space-time reservation table that guarantees inter-agent safety by preventing simultaneous occupancy and head-on collisions. Each successful edge in the tree is equipped with its own local controller, enabling execution without re-solving optimization problems at runtime. The resulting trajectories are not only dynamically feasible but also provably safe with respect to both environmental constraints and inter-agent collisions. Simulation results demonstrate the effectiveness of the approach in synthesizing synchronized, safe trajectories for multiple agents under shared dynamics and constraints, using only data and convex optimization tools.