SwarmGPT: Combining Large Language Models with Safe Motion Planning for Drone Swarm Choreography

📄 arXiv: 2412.08428v2 📥 PDF

作者: Martin Schuck, Dinushka Orrin Dahanaggamaarachchi, Ben Sprenger, Vedant Vyas, Siqi Zhou, Angela P. Schoellig

分类: cs.RO, cs.AI, eess.SY

发布日期: 2024-12-11 (更新: 2025-10-10)

备注: Accepted at RA-L 2025


💡 一句话要点

SwarmGPT:结合大语言模型与安全运动规划的无人机群舞编排系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机群舞 大语言模型 运动规划 安全过滤 集群机器人

📋 核心要点

  1. 现有无人机群舞编排依赖专家知识,设计复杂且耗时,难以让非专业人士参与。
  2. SwarmGPT利用大语言模型进行高层编舞设计,并引入安全过滤器保障动作安全可行。
  3. 实验表明,该系统能有效编排多达200架无人机的群舞,并在真实环境中成功部署。

📝 摘要(中文)

无人机群舞表演作为现代机器人技术的一种引人入胜的应用,其同步性和富有表现力的空中展示与音乐相协调。然而,设计流畅、安全的舞蹈动作仍然是一项复杂的任务,需要专业的知识。我们提出了SwarmGPT,一种基于语言的编舞系统,它利用大型语言模型(LLM)的推理能力来简化无人机表演的设计。该LLM通过一个安全过滤器进行增强,该过滤器通过在违反安全或可行性约束时进行最小的校正来确保可部署性。通过将高层次的编舞设计与低层次的运动规划分离,我们的系统使非专业人士能够使用自然语言迭代地改进舞蹈动作,而无需担心碰撞或执行器限制。我们通过对多达200架无人机的集群进行仿真以及对多达20架无人机进行真实世界实验来验证我们的方法,这些无人机对不同类型的歌曲进行舞蹈编排,展示了可扩展、同步和安全的表演。除了娱乐之外,这项工作还为将基础模型集成到安全关键的集群机器人应用中提供了一个蓝图。

🔬 方法详解

问题定义:无人机群舞编排需要专业知识,手动设计复杂且耗时,难以让非专业人士参与。现有的方法通常需要大量的试错和手动调整,以确保无人机之间的安全和避免超出执行器的限制。因此,如何降低无人机群舞编排的门槛,使其更易于使用和部署,是一个亟待解决的问题。

核心思路:SwarmGPT的核心思路是将高层次的编舞设计与低层次的运动规划解耦。利用大语言模型(LLM)的强大推理能力,根据自然语言描述生成初步的舞蹈动作。然后,通过一个安全过滤器对这些动作进行修正,以确保其安全性和可行性。这种解耦的设计使得非专业人士可以使用自然语言迭代地改进舞蹈动作,而无需担心底层的技术细节。

技术框架:SwarmGPT的整体架构包含以下几个主要模块:1) LLM编舞模块:接收用户输入的自然语言描述,利用LLM生成初步的无人机群舞动作序列。2) 运动规划模块:将LLM生成的动作序列转化为具体的无人机轨迹。3) 安全过滤模块:检测运动规划生成的轨迹是否存在碰撞或超出执行器限制的情况,并进行最小程度的修正,以确保安全性和可行性。4) 仿真与部署模块:在仿真环境中验证编排效果,并在真实无人机集群上进行部署。

关键创新:SwarmGPT的关键创新在于将大语言模型引入无人机群舞编排领域,并结合安全过滤器确保动作安全可行。与传统方法相比,SwarmGPT无需人工编写复杂的控制代码,而是通过自然语言描述即可生成舞蹈动作,大大降低了编排的难度。此外,安全过滤器的引入保证了编排结果的可部署性,避免了碰撞和超出执行器限制等问题。

关键设计:安全过滤模块是关键设计之一。当检测到轨迹存在安全问题时,该模块会进行最小程度的修正,以避免对整体编舞效果产生过大的影响。具体的修正策略包括:1) 碰撞避免:调整无人机的飞行轨迹,使其与其他无人机保持一定的安全距离。2) 速度和加速度限制:限制无人机的速度和加速度,使其不超过执行器的最大能力。3) 位置限制:确保无人机在预定的飞行区域内飞行。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SwarmGPT能够有效地编排多达200架无人机的群舞,并在真实环境中成功部署多达20架无人机的表演。与传统的手动编排方法相比,SwarmGPT大大降低了编排的难度和时间成本。此外,安全过滤器的引入保证了编排结果的安全性和可行性,避免了碰撞和超出执行器限制等问题。仿真和真实实验均验证了该方法的可扩展性和鲁棒性。

🎯 应用场景

SwarmGPT的应用场景广泛,不仅限于娱乐表演。例如,可用于灾难救援,通过无人机集群进行搜索和救援任务的编排;也可用于农业领域,进行精准喷洒农药或监控作物生长情况;还可应用于物流运输,实现无人机集群的协同配送。该研究为将大语言模型应用于安全关键的集群机器人应用提供了新的思路。

📄 摘要(原文)

Drone swarm performances -- synchronized, expressive aerial displays set to music -- have emerged as a captivating application of modern robotics. Yet designing smooth, safe choreographies remains a complex task requiring expert knowledge. We present SwarmGPT, a language-based choreographer that leverages the reasoning power of large language models (LLMs) to streamline drone performance design. The LLM is augmented by a safety filter that ensures deployability by making minimal corrections when safety or feasibility constraints are violated. By decoupling high-level choreographic design from low-level motion planning, our system enables non-experts to iteratively refine choreographies using natural language without worrying about collisions or actuator limits. We validate our approach through simulations with swarms up to 200 drones and real-world experiments with up to 20 drones performing choreographies to diverse types of songs, demonstrating scalable, synchronized, and safe performances. Beyond entertainment, this work offers a blueprint for integrating foundation models into safety-critical swarm robotics applications.