SWIFT-Nav: Stability-Aware Waypoint-Level TD3 with Fuzzy Arbitration for UAV Navigation in Cluttered Environments

作者: Shuaidong Ji, Mahdi Bamdad, Francisco Cruz

分类: cs.RO

发布日期: 2025-12-17

备注: 10 pages, Accepted at Australasian Conference on Robotics and Automation (ACRA) 2025

💡 一句话要点

提出SWIFT-Nav，结合模糊仲裁与TD3，提升UAV在复杂环境导航的稳定性和效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 无人机导航 深度强化学习 TD3 模糊逻辑 路径规划 避障 自主导航

📋 核心要点

复杂动态环境中无人机高效可靠导航仍面临挑战，现有方法在稳定性和泛化性方面存在不足。
SWIFT-Nav核心在于结合TD3学习航点策略，并引入模糊逻辑进行安全仲裁，保证导航过程的安全性。
实验表明，SWIFT-Nav在轨迹平滑性和对未知环境的泛化能力上优于基线方法，并保持实时性。

📝 摘要（中文）

本文提出了一种基于TD3的无人机导航框架SWIFT-Nav，该框架通过模糊仲裁实现快速、稳定地收敛到避障路径。系统将传感器驱动的感知前端与TD3航点策略相结合：感知模块将激光雷达数据转换为置信度加权的安全地图和目标提示，TD3策略通过优先经验回放进行训练，重点关注高误差转换，并采用衰减的epsilon-greedy探索策略，逐渐从探索转向利用。轻量级的模糊逻辑层从径向测量和附近障碍物计算安全分数，控制模式切换并限制不安全动作；同时，任务对齐的奖励塑造结合了目标进度、间隙和切换经济性项，提供了密集、良好缩放的反馈，加速了学习。在Webots中通过基于邻近度的碰撞检测进行实现，该方法在轨迹平滑性和对未见布局的泛化方面始终优于基线，同时保持了实时响应性。结果表明，将TD3与回放优先级、校准探索和模糊安全规则相结合，可以为复杂场景中的无人机导航提供稳健且可部署的解决方案。

🔬 方法详解

问题定义：论文旨在解决复杂和动态环境中无人机导航的问题。现有方法在保证导航稳定性和泛化能力方面存在不足，容易陷入局部最优或产生不安全的行为。特别是在障碍物密集的场景中，如何快速、稳定地规划出一条安全可行的路径是一个挑战。

核心思路：论文的核心思路是将深度强化学习（TD3）与模糊逻辑相结合，利用TD3学习高效的航点策略，同时利用模糊逻辑进行安全仲裁，从而在保证导航效率的同时，提高导航的稳定性和安全性。通过优先经验回放和校准探索，加速学习过程并提高策略的泛化能力。

技术框架：SWIFT-Nav系统主要包含三个模块：感知模块、TD3航点策略模块和模糊逻辑安全仲裁模块。感知模块负责将激光雷达数据转换为安全地图和目标提示；TD3航点策略模块负责学习最优的航点序列；模糊逻辑安全仲裁模块负责根据环境信息计算安全分数，并对TD3的输出进行调整，防止不安全行为的发生。整体流程是：感知模块获取环境信息，TD3策略生成航点，模糊逻辑进行安全评估和调整，最终控制无人机飞行。

关键创新：该论文的关键创新在于将TD3与模糊逻辑相结合，实现了一种稳定且高效的无人机导航框架。与传统的基于规则或优化的方法相比，该方法能够通过学习自动适应复杂的环境，并具有更好的泛化能力。此外，优先经验回放和校准探索策略也加速了学习过程，提高了策略的性能。

关键设计：TD3网络结构采用Actor-Critic框架，使用两个Critic网络来减少Q值高估问题。奖励函数的设计至关重要，论文采用了任务对齐的奖励塑造，结合了目标进度、间隙和切换经济性项，从而提供了密集且良好缩放的反馈，加速了学习。模糊逻辑模块的关键在于模糊规则的制定，需要根据实际场景进行调整，以保证安全仲裁的有效性。epsilon-greedy探索策略的衰减速率也需要仔细调整，以平衡探索和利用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SWIFT-Nav在轨迹平滑性和对未见布局的泛化能力上优于基线方法。具体而言，SWIFT-Nav能够生成更平滑的轨迹，减少不必要的转弯和震荡，从而提高飞行效率和稳定性。此外，SWIFT-Nav在面对新的环境布局时，能够快速适应并规划出安全可行的路径，表现出良好的泛化能力。

🎯 应用场景

SWIFT-Nav可应用于物流配送、环境监测、灾害救援等领域。在这些场景中，无人机需要在复杂和动态的环境中自主导航，完成特定的任务。该研究成果有助于提高无人机在这些场景中的应用效率和安全性，降低人工干预的需求，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Efficient and reliable UAV navigation in cluttered and dynamic environments remains challenging. We propose SWIFT-Nav: Stability-aware Waypoint-level Integration of Fuzzy arbitration and TD3 for Navigation, a TD3-based navigation framework that achieves fast, stable convergence to obstacle-aware paths. The system couples a sensor-driven perception front end with a TD3 waypoint policy: the perception module converts LiDAR ranges into a confidence-weighted safety map and goal cues, while the TD3 policy is trained with Prioritised Experience Replay to focus on high-error transitions and a decaying epsilon-greedy exploration schedule that gradually shifts from exploration to exploitation. A lightweight fuzzy-logic layer computes a safety score from radial measurements and near obstacles, gates mode switching and clamps unsafe actions; in parallel, task-aligned reward shaping combining goal progress, clearance, and switch-economy terms provides dense, well-scaled feedback that accelerates learning. Implemented in Webots with proximity-based collision checking, our approach consistently outperforms baselines in trajectory smoothness and generalization to unseen layouts, while preserving real-time responsiveness. These results show that combining TD3 with replay prioritisation, calibrated exploration, and fuzzy-safety rules yields a robust and deployable solution for UAV navigation in cluttered scenes.

SWIFT-Nav: Stability-Aware Waypoint-Level TD3 with Fuzzy Arbitration for UAV Navigation in Cluttered Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理