Multitask Reinforcement Learning for Quadcopter Attitude Stabilization and Tracking using Graph Policy
作者: Yu Tang Liu, Afonso Vale, Aamir Ahmad, Rodrigo Ventura, Meysam Basiri
分类: cs.RO
发布日期: 2025-03-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于图策略的多任务强化学习方法,用于四旋翼飞行器姿态稳定与跟踪。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多任务强化学习 四旋翼控制 姿态稳定 图卷积网络 深度学习 无人机 软演员-评论家
📋 核心要点
- 四旋翼姿态控制需要在姿态跟踪和快速稳定间权衡,现有方法难以设计统一奖励函数。
- 提出基于图卷积网络的多任务强化学习框架,利用并行仿真提升学习效率。
- 实验表明,该方法学习速度更快,样本效率更高,并在真实飞行器上验证了有效性。
📝 摘要(中文)
四旋翼飞行器的姿态控制涉及两个任务:平滑的姿态跟踪和从任意状态的快速稳定。虽然两者都可以被形式化为跟踪问题,但它们不同的状态空间和控制策略使得统一的奖励函数设计变得复杂。本文提出了一种多任务深度强化学习框架,该框架利用IsaacGym的并行仿真和图卷积网络(GCN)策略来有效地解决这两个任务。我们的多任务软演员-评论家(SAC)方法比单任务方法实现了更快、更可靠的学习和更高的样本效率。通过在Pixhawk飞行控制器上部署学习到的策略(一个紧凑的两层网络,每层24个神经元),验证了其在现实世界中的适用性,实现了400 Hz的控制频率,而无需额外的计算资源。代码已开源。
🔬 方法详解
问题定义:四旋翼飞行器的姿态控制通常需要同时兼顾两个目标:一是精确地跟踪期望的姿态轨迹,二是能够从任意姿态快速稳定到目标姿态。这两个任务虽然都可以看作是跟踪问题,但它们的状态空间和所需的控制策略差异很大,导致难以设计一个能够同时优化这两个目标的统一奖励函数。现有的单任务强化学习方法难以同时满足这两个需求,需要在两者之间进行权衡,或者需要分别训练不同的策略。
核心思路:本文的核心思路是将姿态跟踪和姿态稳定这两个任务视为一个多任务强化学习问题,并设计一个能够同时学习这两个任务的策略。通过共享底层特征表示,并利用图卷积网络(GCN)来建模状态之间的关系,从而提高学习效率和泛化能力。多任务学习允许策略在不同任务之间共享知识,从而更快地学习到有效的控制策略。
技术框架:该方法采用多任务软演员-评论家(SAC)算法作为基础框架。整体流程如下:首先,使用IsaacGym进行并行仿真,生成大量的训练数据。然后,利用GCN构建策略网络,该网络接收四旋翼的状态作为输入,输出控制指令。SAC算法用于优化策略网络,使其能够同时完成姿态跟踪和姿态稳定这两个任务。最后,将学习到的策略部署到Pixhawk飞行控制器上,进行真实环境的测试。
关键创新:该方法最重要的技术创新点在于将图卷积网络(GCN)引入到四旋翼姿态控制中。GCN能够有效地建模四旋翼状态之间的关系,从而提高策略网络的学习效率和泛化能力。此外,多任务学习框架也能够有效地利用不同任务之间的共享信息,从而更快地学习到有效的控制策略。与传统的单任务强化学习方法相比,该方法能够更好地平衡姿态跟踪和姿态稳定这两个目标。
关键设计:策略网络采用两层GCN,每层包含24个神经元。奖励函数的设计是关键,需要平衡姿态跟踪的精度和姿态稳定的速度。具体来说,奖励函数包括姿态误差、角速度误差和控制指令的惩罚项。SAC算法的温度参数需要仔细调整,以控制探索的程度。训练过程中,使用Adam优化器来更新策略网络的参数。学习率和其他超参数需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法比单任务SAC方法实现了更快、更可靠的学习和更高的样本效率。在真实飞行器上的测试表明,该方法能够在400 Hz的控制频率下稳定控制四旋翼飞行器,而无需额外的计算资源。该策略网络结构紧凑,易于部署到嵌入式设备上。
🎯 应用场景
该研究成果可应用于无人机自主飞行、姿态控制、运动规划等领域。通过多任务学习,无人机可以更好地适应复杂环境,提高飞行稳定性和控制精度。该方法还可扩展到其他机器人控制任务,例如机械臂操作、移动机器人导航等,具有广泛的应用前景。
📄 摘要(原文)
Quadcopter attitude control involves two tasks: smooth attitude tracking and aggressive stabilization from arbitrary states. Although both can be formulated as tracking problems, their distinct state spaces and control strategies complicate a unified reward function. We propose a multitask deep reinforcement learning framework that leverages parallel simulation with IsaacGym and a Graph Convolutional Network (GCN) policy to address both tasks effectively. Our multitask Soft Actor-Critic (SAC) approach achieves faster, more reliable learning and higher sample efficiency than single-task methods. We validate its real-world applicability by deploying the learned policy - a compact two-layer network with 24 neurons per layer - on a Pixhawk flight controller, achieving 400 Hz control without extra computational resources. We provide our code at https://github.com/robot-perception-group/GraphMTSAC_UAV/.