ProxFly: Robust Control for Close Proximity Quadcopter Flight via Residual Reinforcement Learning
作者: Ruiqi Zhang, Dingqi Zhang, Mark W. Mueller
分类: cs.RO
发布日期: 2024-09-20 (更新: 2025-04-30)
备注: Accepted by ICRA 2025
🔗 代码/项目: GITHUB
💡 一句话要点
ProxFly:基于残差强化学习的四旋翼近距离飞行鲁棒控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四旋翼飞行器 近距离飞行 残差强化学习 鲁棒控制 深度学习
📋 核心要点
- 现有近距离四旋翼飞行控制方法难以应对复杂气流和模型不确定性,导致控制性能下降甚至失效。
- ProxFly通过在传统级联控制器上添加残差强化学习模块,学习补偿外部干扰和下洗效应,提高鲁棒性。
- 实验表明,ProxFly在近距离飞行和空中对接等场景中优于传统控制器和先进模型控制器,展现了优越的控制性能。
📝 摘要(中文)
本文提出了一种名为ProxFly的基于残差深度强化学习(RL)的控制器,用于四旋翼飞行器近距离飞行。具体而言,我们在一个级联控制器(称为基本控制器)之上设计了一个残差模块,以生成高层控制指令,从而补偿外部干扰和由其他四旋翼飞行器下洗效应引起的推力损失。我们的方法仅将自身状态和控制器的指令作为输入,不依赖于四旋翼飞行器之间的任何通信,从而降低了带宽需求。通过领域随机化,我们的方法放宽了对精确系统辨识和微调控制器参数的要求,使其能够适应不断变化的系统模型。同时,我们的方法不仅减少了控制指令中来自黑盒的无法解释的信号比例,而且还使强化学习训练能够通过基本控制器的指导跳过从头开始的耗时探索。我们在不同接近程度的仿真中验证了残差模块的有效性。此外,我们进行了真实的近距离飞行测试,将ProxFly与基本控制器和一个具有复杂空气动力学补偿的先进模型控制器进行了比较。最后,我们展示了ProxFly可用于具有挑战性的四旋翼飞行器空中对接,其中两个四旋翼飞行器在极近距离飞行,并且强气流会严重扰乱飞行。然而,我们的方法可以在这种情况下稳定四旋翼飞行器并完成对接。相关资源可在https://github.com/ruiqizhang99/ProxFly获取。
🔬 方法详解
问题定义:论文旨在解决四旋翼飞行器在近距离飞行时,由于复杂的气流扰动(如下洗效应)和模型不确定性,导致传统控制方法性能下降甚至失效的问题。现有的模型预测控制等方法虽然可以进行空气动力学补偿,但需要精确的系统辨识和参数调整,难以适应实际环境的变化。
核心思路:论文的核心思路是利用残差强化学习,在传统级联控制器(基本控制器)的基础上学习一个残差控制量,用于补偿未建模的动态和外部扰动。基本控制器提供初步的控制指令,而残差模块则负责精细调整,从而提高整体控制系统的鲁棒性和适应性。
技术框架:ProxFly的整体架构包含两个主要部分:基本控制器和残差强化学习模块。基本控制器采用级联结构,通常包含位置环和姿态环,负责提供基本的控制指令。残差强化学习模块则以四旋翼的状态和基本控制器的指令作为输入,输出一个残差控制量,与基本控制器的输出相加,作为最终的控制指令。整个系统通过领域随机化进行训练,以提高泛化能力。
关键创新:ProxFly的关键创新在于将残差学习的思想引入到四旋翼飞行控制中,并结合强化学习进行训练。与直接使用强化学习从头开始训练控制器相比,残差学习可以利用已有的基本控制器作为先验知识,加速训练过程并提高控制性能。此外,该方法不需要四旋翼之间的通信,降低了系统复杂性。
关键设计:残差强化学习模块采用深度神经网络作为策略网络,输入包括四旋翼的状态(位置、速度、姿态等)和基本控制器的指令。损失函数通常包含两部分:一是控制误差,用于衡量四旋翼的实际状态与期望状态之间的差距;二是正则化项,用于约束残差控制量的幅度,避免过度补偿。领域随机化通过随机改变仿真环境的参数(如质量、惯量、空气阻力等)来提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ProxFly在近距离飞行和空中对接任务中显著优于传统PID控制器和基于模型的先进控制器。在仿真环境中,ProxFly能够稳定控制四旋翼飞行器在极近距离飞行,并成功完成空中对接。在真实飞行实验中,ProxFly也表现出良好的鲁棒性和控制精度,验证了其在实际应用中的可行性。
🎯 应用场景
ProxFly技术可应用于多无人机协同作业、复杂环境下的无人机自主飞行、以及需要高精度控制的无人机任务,例如:桥梁检测、灾害救援、物流配送等。该方法降低了对精确系统建模的需求,提高了无人机在复杂环境下的适应性和可靠性,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
This paper proposes the ProxFly, a residual deep Reinforcement Learning (RL)-based controller for close proximity quadcopter flight. Specifically, we design a residual module on top of a cascaded controller (denoted as basic controller) to generate high-level control commands, which compensate for external disturbances and thrust loss caused by downwash effects from other quadcopters. First, our method takes only the ego state and controllers' commands as inputs and does not rely on any communication between quadcopters, thereby reducing the bandwidth requirement. Through domain randomization, our method relaxes the requirement for accurate system identification and fine-tuned controller parameters, allowing it to adapt to changing system models. Meanwhile, our method not only reduces the proportion of unexplainable signals from the black box in control commands but also enables the RL training to skip the time-consuming exploration from scratch via guidance from the basic controller. We validate the effectiveness of the residual module in the simulation with different proximities. Moreover, we conduct the real close proximity flight test to compare ProxFly with the basic controller and an advanced model-based controller with complex aerodynamic compensation. Finally, we show that ProxFly can be used for challenging quadcopter mid-air docking, where two quadcopters fly in extreme proximity, and strong airflow significantly disrupts flight. However, our method can stabilize the quadcopter in this case and accomplish docking. The resources are available at https://github.com/ruiqizhang99/ProxFly.