SAFE--MA--RRT: Multi-Agent Motion Planning with Data-Driven Safety Certificates
作者: Babak Esmaeili, Hamidreza Modares
分类: eess.SY, cs.LG, cs.MA, cs.RO, math.OC
发布日期: 2025-09-04
备注: Submitted to IEEE Transactions on Automation Science and Engineering
💡 一句话要点
提出SAFE-MA-RRT,一种基于数据驱动安全证书的多智能体运动规划框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 多智能体系统 运动规划 数据驱动 安全证书 凸优化
📋 核心要点
- 传统多智能体运动规划依赖精确系统模型,在复杂或未知环境中面临挑战。
- SAFE-MA-RRT利用数据驱动方法,学习局部不变椭球作为安全证书,无需系统模型。
- 通过仿真验证,该方法能为多个智能体生成同步且安全的轨迹,仅需数据和凸优化。
📝 摘要(中文)
本文提出了一种完全数据驱动的运动规划框架,用于在共享、充满障碍物的工作空间中运行的同构线性多智能体系统,无需显式系统模型。每个智能体通过求解凸半定规划,从实验数据中独立学习其闭环行为,生成局部不变椭球和相应的状态反馈增益。这些以网格航路点为中心的椭球证明了短程过渡的动态可行性,并定义了安全操作区域。基于采样的规划器构建了此类航路点的树,只有当相邻椭球重叠时才允许过渡,从而确保不变到不变的过渡和连续安全性。所有智能体同时扩展它们的树,并通过时空预留表进行协调,该表通过防止同时占用和正面碰撞来保证智能体间的安全。树中的每个成功边都配备了自己的本地控制器,从而无需在运行时重新求解优化问题即可执行。由此产生的轨迹不仅在动态上可行,而且在环境约束和智能体间碰撞方面都是可证明安全的。仿真结果表明,该方法仅使用数据和凸优化工具,即可有效地为共享动态和约束下的多个智能体合成同步、安全的轨迹。
🔬 方法详解
问题定义:多智能体系统在共享且充满障碍物的环境中运动规划,目标是生成安全且动态可行的轨迹。现有方法通常依赖于精确的系统模型,这在实际应用中可能难以获得或计算成本高昂。此外,保证多智能体之间的安全,避免碰撞也是一个挑战。
核心思路:该论文的核心思路是利用数据驱动的方法学习每个智能体的闭环行为,并使用局部不变椭球作为安全证书。通过保证智能体在这些椭球内运动,可以确保其动态可行性和安全性。同时,使用时空预留表来协调多个智能体,避免碰撞。
技术框架:该框架包含以下主要阶段:1) 数据收集:每个智能体通过实验数据学习其闭环行为。2) 局部不变椭球生成:通过求解凸半定规划,为每个智能体生成局部不变椭球和相应的状态反馈增益。3) 基于采样的规划:使用RRT算法构建航路点树,只有当相邻椭球重叠时才允许过渡。4) 多智能体协调:使用时空预留表来协调多个智能体,避免碰撞。5) 轨迹执行:每个边都配备了自己的本地控制器,无需在运行时重新求解优化问题即可执行。
关键创新:该方法最重要的技术创新点在于使用数据驱动的方法学习安全证书,无需显式系统模型。与传统的基于模型的运动规划方法相比,该方法更加灵活和鲁棒,能够适应复杂或未知的环境。此外,使用局部不变椭球作为安全证书,可以保证智能体的动态可行性和安全性。
关键设计:关键设计包括:1) 凸半定规划的优化目标和约束条件,用于生成局部不变椭球。2) RRT算法的采样策略和扩展规则,用于构建航路点树。3) 时空预留表的更新和查询机制,用于协调多个智能体。4) 本地控制器的设计,用于保证轨迹的精确执行。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,该方法能够为多个智能体生成同步且安全的轨迹,仅使用数据和凸优化工具。通过时空预留表,有效避免了智能体间的碰撞。该方法无需显式系统模型,降低了对环境信息的依赖,提高了系统的实用性。
🎯 应用场景
该研究成果可应用于无人机编队飞行、自动驾驶车辆协同、机器人仓库管理等领域。通过数据驱动的方式,能够使多智能体系统在复杂环境中安全高效地完成任务,降低对系统模型的依赖,提高系统的鲁棒性和适应性。未来可进一步扩展到非线性系统和动态环境。
📄 摘要(原文)
This paper proposes a fully data-driven motion-planning framework for homogeneous linear multi-agent systems that operate in shared, obstacle-filled workspaces without access to explicit system models. Each agent independently learns its closed-loop behavior from experimental data by solving convex semidefinite programs that generate locally invariant ellipsoids and corresponding state-feedback gains. These ellipsoids, centered along grid-based waypoints, certify the dynamic feasibility of short-range transitions and define safe regions of operation. A sampling-based planner constructs a tree of such waypoints, where transitions are allowed only when adjacent ellipsoids overlap, ensuring invariant-to-invariant transitions and continuous safety. All agents expand their trees simultaneously and are coordinated through a space-time reservation table that guarantees inter-agent safety by preventing simultaneous occupancy and head-on collisions. Each successful edge in the tree is equipped with its own local controller, enabling execution without re-solving optimization problems at runtime. The resulting trajectories are not only dynamically feasible but also provably safe with respect to both environmental constraints and inter-agent collisions. Simulation results demonstrate the effectiveness of the approach in synthesizing synchronized, safe trajectories for multiple agents under shared dynamics and constraints, using only data and convex optimization tools.