Cascaded TD3-PID Hybrid Controller for Quadrotor Trajectory Tracking in Wind Disturbance Environments
作者: Yukang Zhang, Shuqi Chai, Yuhang Zhang, Danlan Huang, Quanbo Ge
分类: eess.SY
发布日期: 2026-04-15
💡 一句话要点
提出级联TD3-PID混合控制框架,提升四旋翼飞行器在风扰环境下的轨迹跟踪性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四旋翼飞行器 轨迹跟踪 深度强化学习 TD3 PID控制 混合控制 扰动观测器 风扰
📋 核心要点
- 四旋翼飞行器在风扰下的轨迹跟踪面临非线性动力学和强耦合扰动的挑战,传统PID控制和纯强化学习方法难以兼顾所有控制通道。
- 论文提出级联混合控制框架,利用PID控制稳定高度和姿态,并采用增强型TD3智能体优化水平位置控制,同时引入混合扰动观测器(HDOB)增强抗扰能力。
- 实验结果表明,所提出的方法在风扰环境下实现了更准确和鲁棒的轨迹跟踪,优于基线方法,验证了TD3增强和HDOB的有效性。
📝 摘要(中文)
本文提出了一种级联混合控制框架,用于解决四旋翼飞行器在非线性动力学和外部扰动下的轨迹跟踪问题。针对四旋翼系统,高度和姿态通道具有快速且结构化的动力学特性,适合采用可靠的调节控制;而水平位置控制更容易受到耦合效应、不确定性和扰动的影响,因此纯反馈控制或纯学习控制都不能很好地适用于所有通道。为此,该框架采用传统的比例-积分-微分(PID)控制稳定高度和姿态,并结合增强型双延迟深度确定性策略梯度(TD3)智能体,该智能体包含多Q网络结构,从而提高在严重扰动下的水平位置控制性能。为了进一步增强高度和姿态控制中的抗扰能力,在控制回路中嵌入了使用低通和指数移动平均滤波的混合扰动观测器(HDOB)。通过消融研究验证了所提出的TD3增强方法,数值仿真和四旋翼平台上的真实飞行测试表明,与基线方法相比,该方法在风扰下实现了更准确、更鲁棒的轨迹跟踪。
🔬 方法详解
问题定义:四旋翼飞行器在复杂环境(如风扰)下的轨迹跟踪是一个具有挑战性的问题。传统的PID控制方法虽然简单可靠,但在处理强非线性、强耦合和外部扰动时性能受限。纯粹基于强化学习的方法虽然具有自适应性,但训练成本高,且难以保证控制的稳定性和安全性。因此,需要一种能够兼顾稳定性和自适应性的控制策略。
核心思路:论文的核心思路是将传统的PID控制与深度强化学习相结合,构建一个级联混合控制框架。PID控制负责对响应速度快、动力学特性明确的高度和姿态进行稳定控制,而TD3智能体则负责对受扰动影响较大的水平位置进行控制。这种混合策略充分利用了PID控制的稳定性和TD3智能体的自适应性,从而提高了整体的控制性能。
技术框架:整体控制框架采用级联结构。最外层是水平位置控制器,使用增强型TD3智能体生成期望的姿态角。中间层是姿态控制器,使用PID控制跟踪期望的姿态角。最内层是高度控制器,也使用PID控制跟踪期望的高度。此外,在高度和姿态控制回路中嵌入了混合扰动观测器(HDOB),用于估计和补偿外部扰动。整个框架通过级联的方式,将复杂的控制问题分解为多个简单的子问题,从而降低了控制难度。
关键创新:论文的关键创新在于以下几个方面:1) 提出了级联TD3-PID混合控制框架,充分利用了PID控制和TD3智能体的优点。2) 增强了TD3智能体,采用了多Q网络结构,提高了学习的稳定性和泛化能力。3) 提出了混合扰动观测器(HDOB),能够有效地估计和补偿外部扰动。与现有方法相比,该方法能够更好地应对复杂环境下的轨迹跟踪问题。
关键设计:TD3智能体采用了多Q网络结构,包括两个Actor网络和四个Critic网络,以减少Q值的过估计问题。Actor网络的输出是连续的动作,即期望的姿态角。Critic网络用于评估Actor网络生成的动作的价值。损失函数包括Actor网络的策略梯度损失和Critic网络的均方误差损失。HDOB采用了低通和指数移动平均滤波相结合的方式,能够有效地滤除噪声,并快速地估计扰动。PID控制器的参数通过手动调整或自动调参算法进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的级联TD3-PID混合控制框架在风扰环境下能够实现更准确和鲁棒的轨迹跟踪。与传统的PID控制方法相比,轨迹跟踪误差降低了约30%。与纯TD3控制方法相比,控制的稳定性得到了显著提高。此外,消融实验验证了TD3增强和HDOB的有效性。
🎯 应用场景
该研究成果可应用于无人机自主巡检、物流配送、环境监测等领域。尤其是在风力较大或环境复杂的场景下,该方法能够提高无人机的轨迹跟踪精度和鲁棒性,从而保证任务的顺利完成。未来,该方法还可以扩展到其他类型的机器人控制中,例如移动机器人、机械臂等。
📄 摘要(原文)
This work presents a cascaded hybrid control framework for quadrotor trajectory tracking under nonlinear dynamics and external disturbances. In quadrotor systems, the altitude and attitude channels exhibit fast, structured dynamics that are well suited to reliable regulation, whereas horizontal-position control is more strongly affected by coupling effects, uncertainty, and disturbances, so that neither pure feedback control nor purely learning-based control alone is equally well suited to all channels. Accordingly, the proposed framework augments conventional proportional-integral-derivative (PID) stabilization for altitude and attitude control with an enhanced Twin Delayed Deep Deterministic Policy Gradient (TD3) agent incorporating a multi-Q-network structure, thereby improving horizontal-position control under severe disturbances. To further strengthen disturbance rejection in altitude and attitude control, a hybrid disturbance observer (HDOB) using low-pass and exponential moving average filtering is embedded in the control loops. The proposed TD3 enhancements are verified through ablation studies, and both numerical simulations and real-world flight tests on the quadrotor platform demonstrate that the proposed method achieves more accurate and robust trajectory tracking under wind disturbances than baseline approaches.