Fault Tolerant Control of a Quadcopter using Reinforcement Learning

📄 arXiv: 2509.07707v1 📥 PDF

作者: Muzaffar Habib, Adnan Maqsood, Adnan Fayyaz ud Din

分类: cs.RO, eess.SY

发布日期: 2025-09-09

备注: e-ISSN: 1946-3901, ISSN: 1946-3855, https://www.sae.org/publications/technical-papers/content/01-18-01-0006/

期刊: SAE International Journal of Aerospace-V134-1EJ, 2025

DOI: 10.4271/01-18-01-0006


💡 一句话要点

提出基于强化学习的四旋翼容错控制框架,提升单桨失效下的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四旋翼 容错控制 强化学习 动态规划 深度确定性策略梯度

📋 核心要点

  1. 现有四旋翼控制方法在单桨失效时鲁棒性不足,难以保证飞行安全和载荷完整性。
  2. 利用动态规划(DP)和深度确定性策略梯度(DDPG)两种强化学习方法,设计容错控制器。
  3. 仿真结果表明,该框架在单桨失效情况下能有效维持四旋翼高度,验证了其可行性。

📝 摘要(中文)

本研究提出了一种基于强化学习(RL)的控制框架,旨在提高四旋翼飞行器的安全性和鲁棒性,特别关注于应对飞行中单个螺旋桨失效的情况。针对四旋翼保持期望高度以保障硬件和载荷安全的关键需求,本研究探索了两种RL方法:动态规划(DP)和深度确定性策略梯度(DDPG),以克服旋翼失效带来的挑战。DP作为一种基于模型的方法,具有收敛性保证,但计算量大;DDPG作为一种无模型技术,计算速度快,但对解的持续时间有限制。研究的挑战在于在高维度和动作空间上训练RL算法。通过对现有DP和DDPG算法的修改,控制器不仅能够处理大型连续状态和动作空间,还能够在飞行中螺旋桨失效后达到期望状态。为了验证所提出控制框架的鲁棒性,在MATLAB环境中进行了广泛的仿真,验证了其在任务关键型四旋翼应用中的可行性。对两种RL算法进行了比较分析,并探讨了它们在故障航空系统中的应用潜力。

🔬 方法详解

问题定义:论文旨在解决四旋翼飞行器在飞行过程中发生单桨失效时,如何保持飞行器高度稳定,从而保障硬件设备和有效载荷的安全。现有方法在面对此类突发故障时,鲁棒性较差,难以快速有效地进行补偿控制。

核心思路:论文的核心思路是利用强化学习算法,训练一个能够在单桨失效后快速调整控制策略的控制器。通过学习环境动态特性,控制器能够自主适应故障状态,并采取最优动作以维持飞行器高度。

技术框架:整体框架包括以下几个主要模块:1) 四旋翼动力学模型:用于模拟四旋翼的飞行状态和响应;2) 强化学习算法:分别采用动态规划(DP)和深度确定性策略梯度(DDPG)两种算法;3) 奖励函数设计:用于引导强化学习算法学习到期望的控制策略;4) 控制器实现:将训练好的策略部署到四旋翼控制器中。

关键创新:论文的关键创新在于针对四旋翼单桨失效问题,有效结合了动态规划(DP)和深度确定性策略梯度(DDPG)两种强化学习算法。通过对现有算法进行修改,使其能够适应大型连续状态和动作空间,并实现故障后的期望状态。

关键设计:在DP算法中,需要对状态空间进行离散化,并计算状态转移概率。在DDPG算法中,采用了Actor-Critic网络结构,其中Actor网络用于输出控制策略,Critic网络用于评估策略的价值。奖励函数的设计至关重要,需要综合考虑高度误差、控制量大小等因素。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

📊 实验亮点

论文通过MATLAB仿真验证了所提出控制框架的有效性。仿真结果表明,在单桨失效的情况下,该框架能够快速调整控制策略,维持四旋翼飞行器的高度稳定。论文对比了DP和DDPG两种算法的性能,但具体的性能数据和提升幅度未在摘要中明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于无人机物流、农业植保、灾害救援等领域。在这些场景中,四旋翼飞行器常常需要在复杂环境中执行任务,面临各种潜在的故障风险。该容错控制框架能够显著提高飞行器的安全性和可靠性,降低事故发生的概率,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

This study presents a novel reinforcement learning (RL)-based control framework aimed at enhancing the safety and robustness of the quadcopter, with a specific focus on resilience to in-flight one propeller failure. Addressing the critical need of a robust control strategy for maintaining a desired altitude for the quadcopter to safe the hardware and the payload in physical applications. The proposed framework investigates two RL methodologies Dynamic Programming (DP) and Deep Deterministic Policy Gradient (DDPG), to overcome the challenges posed by the rotor failure mechanism of the quadcopter. DP, a model-based approach, is leveraged for its convergence guarantees, despite high computational demands, whereas DDPG, a model-free technique, facilitates rapid computation but with constraints on solution duration. The research challenge arises from training RL algorithms on large dimensions and action domains. With modifications to the existing DP and DDPG algorithms, the controllers were trained not only to cater for large continuous state and action domain and also achieve a desired state after an inflight propeller failure. To verify the robustness of the proposed control framework, extensive simulations were conducted in a MATLAB environment across various initial conditions and underscoring its viability for mission-critical quadcopter applications. A comparative analysis was performed between both RL algorithms and their potential for applications in faulty aerial systems.