Dynamic-TD3: A Novel Algorithm for UAV Path Planning with Dynamic Obstacle Trajectory Prediction

📄 arXiv: 2605.00059v1 📥 PDF

作者: Wentao Chen, Jingtang Chen, Mingjian Fu, Tiantian Li, Youfeng Su, Wenxi Liu, Yuanlong Yu

分类: cs.RO, cs.AI

发布日期: 2026-04-30

备注: 6 pages, 5 figures


💡 一句话要点

提出Dynamic-TD3算法,解决无人机在动态障碍物环境中安全路径规划问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机路径规划 深度强化学习 动态障碍物 轨迹预测 约束马尔可夫决策过程

📋 核心要点

  1. 现有无人机路径规划方法在安全性和探索性之间存在矛盾,软惩罚机制易导致危险行为,而硬约束方法对噪声敏感。
  2. Dynamic-TD3通过将导航建模为CMDP,并结合ATREM和PAG-KF,在保证安全约束的同时,提升了无人机的机动性和鲁棒性。
  3. 实验结果表明,Dynamic-TD3在动态威胁环境中表现出更好的避碰性能、更低的能耗和更平滑的轨迹。

📝 摘要(中文)

深度强化学习(DRL)在复杂、高风险环境中的无人机自主导航中得到广泛应用。然而,其在实际部署中面临安全-探索困境:软惩罚机制鼓励冒险的试错,而大多数基于约束的方法在传感器噪声和意图不确定性下性能下降。我们提出了Dynamic-TD3,一个物理增强框架,通过将导航建模为约束马尔可夫决策过程(CMDP),在保持机动性的同时强制执行严格的安全约束。该框架集成了一个自适应轨迹关系演化机制(ATREM)来捕获远程意图,并采用物理感知门控卡尔曼滤波器(PAG-KF)来减轻非平稳观测噪声。由此产生的状态表示驱动双重准则策略,通过拉格朗日松弛平衡任务效率和硬安全约束。在具有侵略性动态威胁的实验中,该方法表现出卓越的避碰性能,降低的能量消耗和更平滑的飞行轨迹。

🔬 方法详解

问题定义:无人机在复杂动态环境中进行安全高效的路径规划是一个关键问题。现有方法,如基于软惩罚的强化学习,容易导致无人机为了探索而冒险,违反安全约束;而基于硬约束的方法,在面对传感器噪声和动态障碍物意图不确定性时,性能会显著下降。因此,如何在保证安全约束的前提下,提高无人机在复杂环境中的适应性和鲁棒性是一个挑战。

核心思路:Dynamic-TD3的核心思路是将无人机导航问题建模为一个约束马尔可夫决策过程(CMDP),通过拉格朗日松弛方法平衡任务效率和硬安全约束。为了应对动态障碍物和传感器噪声,引入了自适应轨迹关系演化机制(ATREM)来预测障碍物的运动轨迹,并采用物理感知门控卡尔曼滤波器(PAG-KF)来过滤噪声。

技术框架:Dynamic-TD3主要包含以下几个模块:1) 环境感知模块:利用传感器获取环境信息,包括无人机自身状态和障碍物信息。2) 状态表示模块:通过ATREM预测障碍物轨迹,并利用PAG-KF过滤传感器噪声,得到更准确的状态表示。3) 策略学习模块:基于TD3算法,学习一个双重准则策略,同时优化任务效率和满足安全约束。4) 约束优化模块:通过拉格朗日松弛方法,将安全约束融入到奖励函数中,平衡任务效率和安全性。

关键创新:Dynamic-TD3的关键创新在于:1) 提出了ATREM,能够有效预测动态障碍物的运动轨迹,提高无人机的避障能力。2) 引入了PAG-KF,能够有效过滤传感器噪声,提高状态估计的准确性。3) 将导航问题建模为CMDP,并通过拉格朗日松弛方法,实现了安全约束的硬性保证。

关键设计:ATREM的具体实现细节未知,但其核心思想是利用关系推理来预测障碍物轨迹。PAG-KF的设计需要考虑无人机的物理模型和传感器特性,具体参数设置未知。TD3算法中的Actor和Critic网络结构未知,但需要根据无人机导航问题的特点进行调整。拉格朗日乘子的更新策略需要仔细设计,以保证算法的收敛性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dynamic-TD3在具有侵略性动态威胁的环境中,能够实现卓越的避碰性能,降低能量消耗,并生成更平滑的飞行轨迹。具体性能数据未知,但摘要强调了其优于现有方法的避障能力和能耗表现。与未采用ATREM和PAG-KF的基线方法相比,Dynamic-TD3在安全性、效率和轨迹平滑性方面均有显著提升。

🎯 应用场景

Dynamic-TD3算法可应用于多种无人机自主导航场景,例如:灾后救援、环境监测、物流配送等。在这些场景中,无人机需要在复杂动态环境中安全高效地完成任务。该算法的实际价值在于提高了无人机在复杂环境中的适应性和鲁棒性,降低了事故发生的概率。未来,该算法可以进一步扩展到多无人机协同导航、人机协作等领域。

📄 摘要(原文)

Deep reinforcement learning (DRL) finds extensive application in autonomous drone navigation within complex, high-risk environments. However, its practical deployment faces a safety-exploration dilemma: soft penalty mechanisms encourage risky trial-and-error, while most constraint-based methods suffer degraded performance under sensor noise and intent uncertainty. We propose Dynamic-TD3, a physically enhanced framework that enforces strict safety constraints while maintaining maneuverability by modeling navigation as a Constrained Markov Decision Process (CMDP). This framework integrates an Adaptive Trajectory Relational Evolution Mechanism (ATREM) to capture long-range intentions and employs a Physically Aware Gated Kalman Filter (PAG-KF) to mitigate non-stationary observation noise. The resulting state representation drives a dual-criterion policy that balances mission efficiency against hard safety constraints via Lagrangian relaxation. In experiments with aggressive dynamic threats, this approach demonstrates superior collision avoidance performance, reduced energy consumption, and smoother flight trajectories.