Model-Free versus Model-Based Reinforcement Learning for Fixed-Wing UAV Attitude Control Under Varying Wind Conditions
作者: David Olivares, Pierre Fournier, Pavan Vasishta, Julien Marzat
分类: cs.RO, cs.LG, eess.SY
发布日期: 2024-09-26
备注: Published at ICINCO 2024
期刊: In Proceedings of the 21st International Conference on Informatics in Control, Automation and Robotics (ICINCO 2024)
💡 一句话要点
针对变风况下固定翼无人机姿态控制,提出优于PID和无模型RL的时序差分模型预测控制方法。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 固定翼无人机 姿态控制 强化学习 模型预测控制 时序差分学习 变风况 鲁棒性 执行器波动
📋 核心要点
- 现有固定翼无人机姿态控制方法在复杂风况下难以兼顾跟踪精度和鲁棒性,尤其是在非线性飞行状态下。
- 采用基于模型的强化学习,具体为时序差分模型预测控制(TD-MPC),利用模型预测控制的规划能力和强化学习的自适应性。
- 实验表明,TD-MPC在跟踪精度和鲁棒性上优于PID和无模型强化学习,并引入执行器波动指标评估能源效率。
📝 摘要(中文)
本文评估并比较了无模型和基于模型的强化学习在固定翼无人机姿态控制中的性能,并以PID控制器作为参考。比较的重点是它们在模拟环境中处理变化的飞行动力学和风扰动的能力。结果表明,时序差分模型预测控制(Temporal Difference Model Predictive Control, TD-MPC)智能体在不同参考难度下的跟踪精度和鲁棒性方面均优于PID控制器和其他无模型强化学习方法,尤其是在非线性飞行状态下。此外,本文引入了执行器波动作为评估能源效率和执行器磨损的关键指标,并测试了文献中的两种不同方法:动作变化惩罚和动作策略平滑的条件化。同时,评估了所有控制方法在分别受到随机湍流和阵风影响时的性能,以衡量它们对跟踪性能的影响,观察其局限性,并概述它们对马尔可夫决策过程形式的影响。
🔬 方法详解
问题定义:本文旨在解决固定翼无人机在复杂风况下的姿态控制问题。现有方法,如PID控制器,在面对非线性飞行状态和强风扰动时,难以保证跟踪精度和鲁棒性。无模型强化学习方法虽然具有一定的自适应性,但在样本效率和泛化能力上存在挑战。
核心思路:本文的核心思路是结合基于模型的强化学习和模型预测控制(MPC)的优点。通过学习环境模型,TD-MPC能够预测未来状态,并利用MPC的规划能力优化控制策略,从而提高跟踪精度和鲁棒性。同时,强化学习的自适应性使得TD-MPC能够适应不同的风况和飞行状态。
技术框架:整体框架包含以下几个主要模块:1)环境模型学习模块:使用时序差分学习(TD Learning)方法学习无人机的动力学模型。2)模型预测控制模块:利用学习到的模型预测未来状态,并使用优化算法(如序列二次规划)求解最优控制序列。3)策略优化模块:根据MPC的输出,调整强化学习策略,以提高跟踪性能。
关键创新:最重要的技术创新点在于将时序差分学习和模型预测控制相结合。与传统的无模型强化学习方法相比,TD-MPC能够利用环境模型进行规划,从而提高样本效率和泛化能力。与传统的MPC方法相比,TD-MPC能够通过强化学习自适应地调整控制策略,从而适应不同的风况和飞行状态。
关键设计:在环境模型学习中,使用了神经网络来表示无人机的动力学模型,并使用TD(λ)算法进行训练。在模型预测控制中,使用了序列二次规划(SQP)算法求解最优控制序列。在策略优化中,使用了Actor-Critic算法,并引入了动作变化惩罚项,以提高控制策略的平滑性,降低执行器波动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TD-MPC在跟踪精度和鲁棒性方面均优于PID控制器和其他无模型强化学习方法。具体而言,在不同参考难度下,TD-MPC的跟踪误差显著低于PID和无模型RL方法。此外,TD-MPC在受到随机湍流和阵风影响时,仍能保持较好的控制性能。引入的执行器波动指标表明,通过动作变化惩罚,可以有效降低执行器波动,提高能源效率。
🎯 应用场景
该研究成果可应用于各种需要高精度和鲁棒性姿态控制的固定翼无人机应用场景,例如:复杂环境下的自主飞行、精准农业、灾害救援、以及物流运输等。通过提高无人机在复杂风况下的控制性能,可以扩展无人机的应用范围,并提高其在实际任务中的可靠性。
📄 摘要(原文)
This paper evaluates and compares the performance of model-free and model-based reinforcement learning for the attitude control of fixed-wing unmanned aerial vehicles using PID as a reference point. The comparison focuses on their ability to handle varying flight dynamics and wind disturbances in a simulated environment. Our results show that the Temporal Difference Model Predictive Control agent outperforms both the PID controller and other model-free reinforcement learning methods in terms of tracking accuracy and robustness over different reference difficulties, particularly in nonlinear flight regimes. Furthermore, we introduce actuation fluctuation as a key metric to assess energy efficiency and actuator wear, and we test two different approaches from the literature: action variation penalty and conditioning for action policy smoothness. We also evaluate all control methods when subject to stochastic turbulence and gusts separately, so as to measure their effects on tracking performance, observe their limitations and outline their implications on the Markov decision process formalism.