CGD: Constraint-Guided Diffusion Policies for UAV Trajectory Planning
作者: Kota Kondo, Andrea Tagliabue, Xiaoyi Cai, Claudius Tewari, Olivia Garcia, Marcos Espitia-Alvarez, Jonathan P. How
分类: cs.RO, cs.LG, eess.SY
发布日期: 2024-05-02
备注: 8 pages, 3 figures
💡 一句话要点
提出约束引导扩散策略CGD,用于无人机轨迹规划,提升动态可行性与泛化性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机轨迹规划 扩散模型 模仿学习 动态可行性 约束优化
📋 核心要点
- 传统轨迹规划计算成本高,模仿学习方法忽略动态可行性,且泛化性差。
- CGD将轨迹规划分解为无碰撞路径搜索和动态可行时间参数化两个子问题。
- 实验表明,CGD在动态可行性和应对新约束方面优于传统神经网络架构。
📝 摘要(中文)
传统的基于优化的规划器虽然有效,但计算成本高昂,导致轨迹生成速度慢。一种成功的策略是使用模仿学习(IL)从这些规划器(被视为专家演示者)中开发快速神经网络(NN)策略,以减少计算时间。虽然由此产生的NN策略能够有效地快速生成类似于专家轨迹的轨迹,但(1)它们的输出没有明确考虑动态可行性,并且(2)这些策略不能适应与训练期间使用的约束不同的约束变化。为了克服这些限制,我们提出了一种新的基于IL的轨迹规划方法——约束引导扩散(CGD)。CGD利用混合学习/在线优化方案,将扩散策略与替代高效优化问题相结合,从而能够生成无碰撞、动态可行的轨迹。CGD的关键思想包括将专家解决的原始具有挑战性的优化问题分解为两个更易于管理的问题:(a)有效地找到无碰撞路径,以及(b)确定这些路径的动态可行时间参数化以获得轨迹。通过数值评估,我们证明了与传统神经网络架构相比,在训练期间从未遇到的新约束场景下,性能和动态可行性方面有显著改进。
🔬 方法详解
问题定义:无人机轨迹规划问题旨在生成一条从起点到终点,同时避开障碍物并满足无人机动力学约束的轨迹。现有基于优化的方法计算量大,难以实时应用。模仿学习虽然可以加速轨迹生成,但生成的轨迹往往不满足动力学约束,且对训练时未见过的约束泛化能力差。
核心思路:CGD的核心思想是将复杂的轨迹规划问题分解为两个更易于处理的子问题:首先,使用扩散模型生成无碰撞的路径;然后,对该路径进行时间参数化,使其满足无人机的动力学约束。这种分解降低了问题的复杂度,使得可以在线优化时间参数,从而保证轨迹的动态可行性。
技术框架:CGD包含两个主要模块:扩散策略模块和时间参数化优化模块。扩散策略模块负责生成一系列候选的无碰撞路径,该模块通过模仿学习训练得到,能够快速生成高质量的路径。时间参数化优化模块则负责对扩散策略生成的路径进行优化,调整每个路径点的时间戳,使得最终的轨迹满足无人机的动力学约束。整个流程是先由扩散模型生成路径,然后通过优化模块进行精细调整,最终得到可执行的轨迹。
关键创新:CGD的关键创新在于将扩散模型与在线优化相结合,实现了一种混合学习/优化框架。扩散模型负责快速生成候选路径,而在线优化则负责保证轨迹的动态可行性。这种混合方法既能利用扩散模型的快速生成能力,又能保证轨迹的质量。此外,CGD能够处理训练时未见过的约束,提高了轨迹规划的泛化能力。
关键设计:扩散策略模块使用标准的扩散模型架构,通过模仿学习训练得到。时间参数化优化模块则使用一个高效的优化器,例如Sequential Least Squares Programming (SLSQP),来调整路径点的时间戳。损失函数的设计需要同时考虑轨迹的平滑性、与障碍物的距离以及动力学约束的满足程度。具体参数设置需要根据无人机的动力学特性和环境的复杂程度进行调整。
🖼️ 关键图片
📊 实验亮点
论文通过数值实验验证了CGD的有效性。实验结果表明,与传统的神经网络策略相比,CGD在动态可行性方面有显著提升,能够生成更加平滑和可执行的轨迹。此外,CGD在应对训练时未见过的约束时表现出更强的泛化能力,能够适应更加复杂的环境。
🎯 应用场景
CGD可应用于各种无人机自主导航场景,例如物流配送、环境监测、灾害救援等。该方法能够快速生成动态可行的轨迹,提高无人机的任务执行效率和安全性。此外,CGD对新约束的适应能力使其能够应用于动态变化的复杂环境,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Traditional optimization-based planners, while effective, suffer from high computational costs, resulting in slow trajectory generation. A successful strategy to reduce computation time involves using Imitation Learning (IL) to develop fast neural network (NN) policies from those planners, which are treated as expert demonstrators. Although the resulting NN policies are effective at quickly generating trajectories similar to those from the expert, (1) their output does not explicitly account for dynamic feasibility, and (2) the policies do not accommodate changes in the constraints different from those used during training. To overcome these limitations, we propose Constraint-Guided Diffusion (CGD), a novel IL-based approach to trajectory planning. CGD leverages a hybrid learning/online optimization scheme that combines diffusion policies with a surrogate efficient optimization problem, enabling the generation of collision-free, dynamically feasible trajectories. The key ideas of CGD include dividing the original challenging optimization problem solved by the expert into two more manageable sub-problems: (a) efficiently finding collision-free paths, and (b) determining a dynamically-feasible time-parametrization for those paths to obtain a trajectory. Compared to conventional neural network architectures, we demonstrate through numerical evaluations significant improvements in performance and dynamic feasibility under scenarios with new constraints never encountered during training.