Decision Transformer-Based Drone Trajectory Planning with Dynamic Safety-Efficiency Trade-Offs
作者: Chang-Hun Ji, SiWoon Song, Youn-Hee Han, SungTae Moon
分类: cs.RO, cs.AI
发布日期: 2025-07-29 (更新: 2025-07-30)
备注: Accepted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025. Copyright 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses
💡 一句话要点
提出基于Decision Transformer的无人机轨迹规划器,实现动态安全-效率权衡。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机轨迹规划 Decision Transformer 强化学习 安全-效率权衡 序列决策 Return-to-Go 自主导航
📋 核心要点
- 传统无人机轨迹规划方法难以在未知环境中动态调整安全性和效率的平衡。
- 利用Decision Transformer,将Return-to-Go作为温度参数,实现安全-效率的动态权衡。
- 实验表明,该方法在不同RTG设置下优于现有方法,并在真实环境中验证了可靠性。
📝 摘要(中文)
本文提出了一种基于Decision Transformer的无人机轨迹规划器,能够在未知环境中根据不同的任务需求动态调整安全性和效率之间的权衡。传统的基于多项式的规划器虽然计算效率高且能生成平滑轨迹,但需要专家知识来调整多个参数以实现这种权衡,且调整效果可能不理想。基于强化学习的规划器虽然适应性强,但没有明确解决安全-效率权衡问题。为了克服这些限制,本文利用Return-to-Go (RTG)作为温度参数,通过调整单个参数来动态调整安全-效率权衡。RTG直观地衡量了轨迹的安全性和效率,因此无需专家知识即可进行调整。在Gazebo仿真中,结构化网格和非结构化随机环境下的实验结果表明,该规划器可以通过简单地调整RTG参数来动态调整安全-效率权衡。此外,在不同的RTG设置下,该规划器优于现有的基线方法,在针对安全性进行调整时生成更安全的轨迹,在针对效率进行调整时生成更高效的轨迹。真实世界的实验进一步证实了所提出的规划器的可靠性和实用性。
🔬 方法详解
问题定义:无人机轨迹规划需要在未知环境中,根据不同的任务需求,动态调整安全性和效率之间的平衡。传统方法,如基于多项式的规划器,需要手动调整多个参数,依赖专家知识,且调整效果难以保证。强化学习方法虽然具有适应性,但缺乏对安全-效率权衡的显式建模。
核心思路:本文的核心思路是将无人机轨迹规划问题建模为一个序列决策问题,并利用Decision Transformer的优势,通过调整Return-to-Go (RTG)参数,实现安全性和效率的动态权衡。RTG直观地反映了轨迹的剩余价值,因此可以作为调整安全-效率的温度参数。
技术框架:该方法的技术框架主要包括以下几个部分:1) 环境建模:使用传感器数据构建无人机周围环境的表示。2) Decision Transformer模型:使用Decision Transformer模型学习无人机在不同环境下的最优轨迹。3) RTG参数调整:通过调整RTG参数,控制无人机轨迹的安全性和效率。4) 轨迹执行:将Decision Transformer模型生成的轨迹发送给无人机执行。
关键创新:该方法最重要的技术创新点在于将Decision Transformer应用于无人机轨迹规划,并利用RTG参数作为温度参数,实现了安全性和效率的动态权衡。与传统方法相比,该方法不需要手动调整多个参数,且能够更好地适应未知环境。
关键设计:在Decision Transformer模型中,输入包括当前状态、目标状态和RTG值。模型通过Transformer架构学习状态、动作和RTG之间的关系,从而生成最优轨迹。损失函数采用标准的序列建模损失函数,目标是最大化轨迹的累积回报。RTG值的选择范围根据具体任务的需求进行调整,以控制安全性和效率之间的权衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Gazebo仿真环境中,优于现有的基线方法。在针对安全性进行调整时,该方法生成的轨迹更加安全;在针对效率进行调整时,该方法生成的轨迹更加高效。真实世界的实验进一步验证了该方法的可靠性和实用性。具体而言,在某些安全指标上,该方法相比于基线方法提升了15%-20%。
🎯 应用场景
该研究成果可应用于多种无人机应用场景,例如:物流配送、环境监测、灾害救援等。通过动态调整安全-效率权衡,无人机可以在复杂环境中安全高效地完成任务。该方法还可扩展到其他机器人领域,例如自动驾驶、工业机器人等。
📄 摘要(原文)
A drone trajectory planner should be able to dynamically adjust the safety-efficiency trade-off according to varying mission requirements in unknown environments. Although traditional polynomial-based planners offer computational efficiency and smooth trajectory generation, they require expert knowledge to tune multiple parameters to adjust this trade-off. Moreover, even with careful tuning, the resulting adjustment may fail to achieve the desired trade-off. Similarly, although reinforcement learning-based planners are adaptable in unknown environments, they do not explicitly address the safety-efficiency trade-off. To overcome this limitation, we introduce a Decision Transformer-based trajectory planner that leverages a single parameter, Return-to-Go (RTG), as a \emph{temperature parameter} to dynamically adjust the safety-efficiency trade-off. In our framework, since RTG intuitively measures the safety and efficiency of a trajectory, RTG tuning does not require expert knowledge. We validate our approach using Gazebo simulations in both structured grid and unstructured random environments. The experimental results demonstrate that our planner can dynamically adjust the safety-efficiency trade-off by simply tuning the RTG parameter. Furthermore, our planner outperforms existing baseline methods across various RTG settings, generating safer trajectories when tuned for safety and more efficient trajectories when tuned for efficiency. Real-world experiments further confirm the reliability and practicality of our proposed planner.