SWIFT-Nav: Stability-Aware Waypoint-Level TD3 with Fuzzy Arbitration for UAV Navigation in Cluttered Environments
作者: Shuaidong Ji, Mahdi Bamdad, Francisco Cruz
分类: cs.RO
发布日期: 2025-12-17
备注: 10 pages, Accepted at Australasian Conference on Robotics and Automation (ACRA) 2025
💡 一句话要点
提出SWIFT-Nav,结合模糊仲裁与TD3,提升UAV在复杂环境导航的稳定性和效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机导航 深度强化学习 TD3 模糊逻辑 路径规划 避障 自主导航
📋 核心要点
- 复杂动态环境中无人机高效可靠导航仍面临挑战,现有方法在稳定性和泛化性方面存在不足。
- SWIFT-Nav核心在于结合TD3学习航点策略,并引入模糊逻辑进行安全仲裁,保证导航过程的安全性。
- 实验表明,SWIFT-Nav在轨迹平滑性和对未知环境的泛化能力上优于基线方法,并保持实时性。
📝 摘要(中文)
本文提出了一种基于TD3的无人机导航框架SWIFT-Nav,该框架通过模糊仲裁实现快速、稳定地收敛到避障路径。系统将传感器驱动的感知前端与TD3航点策略相结合:感知模块将激光雷达数据转换为置信度加权的安全地图和目标提示,TD3策略通过优先经验回放进行训练,重点关注高误差转换,并采用衰减的epsilon-greedy探索策略,逐渐从探索转向利用。轻量级的模糊逻辑层从径向测量和附近障碍物计算安全分数,控制模式切换并限制不安全动作;同时,任务对齐的奖励塑造结合了目标进度、间隙和切换经济性项,提供了密集、良好缩放的反馈,加速了学习。在Webots中通过基于邻近度的碰撞检测进行实现,该方法在轨迹平滑性和对未见布局的泛化方面始终优于基线,同时保持了实时响应性。结果表明,将TD3与回放优先级、校准探索和模糊安全规则相结合,可以为复杂场景中的无人机导航提供稳健且可部署的解决方案。
🔬 方法详解
问题定义:论文旨在解决复杂和动态环境中无人机导航的问题。现有方法在保证导航稳定性和泛化能力方面存在不足,容易陷入局部最优或产生不安全的行为。特别是在障碍物密集的场景中,如何快速、稳定地规划出一条安全可行的路径是一个挑战。
核心思路:论文的核心思路是将深度强化学习(TD3)与模糊逻辑相结合,利用TD3学习高效的航点策略,同时利用模糊逻辑进行安全仲裁,从而在保证导航效率的同时,提高导航的稳定性和安全性。通过优先经验回放和校准探索,加速学习过程并提高策略的泛化能力。
技术框架:SWIFT-Nav系统主要包含三个模块:感知模块、TD3航点策略模块和模糊逻辑安全仲裁模块。感知模块负责将激光雷达数据转换为安全地图和目标提示;TD3航点策略模块负责学习最优的航点序列;模糊逻辑安全仲裁模块负责根据环境信息计算安全分数,并对TD3的输出进行调整,防止不安全行为的发生。整体流程是:感知模块获取环境信息,TD3策略生成航点,模糊逻辑进行安全评估和调整,最终控制无人机飞行。
关键创新:该论文的关键创新在于将TD3与模糊逻辑相结合,实现了一种稳定且高效的无人机导航框架。与传统的基于规则或优化的方法相比,该方法能够通过学习自动适应复杂的环境,并具有更好的泛化能力。此外,优先经验回放和校准探索策略也加速了学习过程,提高了策略的性能。
关键设计:TD3网络结构采用Actor-Critic框架,使用两个Critic网络来减少Q值高估问题。奖励函数的设计至关重要,论文采用了任务对齐的奖励塑造,结合了目标进度、间隙和切换经济性项,从而提供了密集且良好缩放的反馈,加速了学习。模糊逻辑模块的关键在于模糊规则的制定,需要根据实际场景进行调整,以保证安全仲裁的有效性。epsilon-greedy探索策略的衰减速率也需要仔细调整,以平衡探索和利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SWIFT-Nav在轨迹平滑性和对未见布局的泛化能力上优于基线方法。具体而言,SWIFT-Nav能够生成更平滑的轨迹,减少不必要的转弯和震荡,从而提高飞行效率和稳定性。此外,SWIFT-Nav在面对新的环境布局时,能够快速适应并规划出安全可行的路径,表现出良好的泛化能力。
🎯 应用场景
SWIFT-Nav可应用于物流配送、环境监测、灾害救援等领域。在这些场景中,无人机需要在复杂和动态的环境中自主导航,完成特定的任务。该研究成果有助于提高无人机在这些场景中的应用效率和安全性,降低人工干预的需求,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Efficient and reliable UAV navigation in cluttered and dynamic environments remains challenging. We propose SWIFT-Nav: Stability-aware Waypoint-level Integration of Fuzzy arbitration and TD3 for Navigation, a TD3-based navigation framework that achieves fast, stable convergence to obstacle-aware paths. The system couples a sensor-driven perception front end with a TD3 waypoint policy: the perception module converts LiDAR ranges into a confidence-weighted safety map and goal cues, while the TD3 policy is trained with Prioritised Experience Replay to focus on high-error transitions and a decaying epsilon-greedy exploration schedule that gradually shifts from exploration to exploitation. A lightweight fuzzy-logic layer computes a safety score from radial measurements and near obstacles, gates mode switching and clamps unsafe actions; in parallel, task-aligned reward shaping combining goal progress, clearance, and switch-economy terms provides dense, well-scaled feedback that accelerates learning. Implemented in Webots with proximity-based collision checking, our approach consistently outperforms baselines in trajectory smoothness and generalization to unseen layouts, while preserving real-time responsiveness. These results show that combining TD3 with replay prioritisation, calibrated exploration, and fuzzy-safety rules yields a robust and deployable solution for UAV navigation in cluttered scenes.