Learning Agile and Robust Omnidirectional Aerial Motion on Overactuated Tiltable-Quadrotors

📄 arXiv: 2602.21583v1 📥 PDF

作者: Wentao Zhang, Zhaoqi Ma, Jinjie Li, Huayi Wang, Haokun Liu, Junichiro Sugihara, Chen Chen, Yicheng Chen, Moju Zhao

分类: cs.RO

发布日期: 2026-02-25


💡 一句话要点

提出基于强化学习的倾转旋翼无人机敏捷鲁棒全向运动控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 倾转旋翼无人机 强化学习 全向运动控制 域随机化 系统辨识

📋 核心要点

  1. 倾转旋翼无人机控制面临关节与旋翼强耦合难题,传统模型预测控制在扰动下鲁棒性不足。
  2. 提出基于强化学习的控制框架,学习协调的旋翼-关节行为,实现SE(3)空间的目标姿态控制。
  3. 结合系统辨识与域随机化,实现sim-to-real迁移,实验表明该方法具有优越的鲁棒性和泛化能力。

📝 摘要(中文)

倾转旋翼飞行机器人通过推力矢量控制实现全向机动,但由于关节和旋翼动力学之间的强耦合,带来了巨大的控制挑战。基于模型的控制器虽然在标称条件下可以实现较高的运动精度,但在存在扰动和建模不确定性的情况下,其鲁棒性和响应性通常会降低。本文研究了基于强化学习的过驱动倾转旋翼无人机的全向空中运动控制,该方法优先考虑鲁棒性和敏捷性。我们提出了一个基于学习的控制框架,可以有效地获取协调的旋翼-关节行为,以达到$SE(3)$空间中的目标姿态。为了在保持运动精度的同时实现可靠的sim-to-real迁移,我们将系统辨识与最小且物理一致的域随机化相结合。与最先进的NMPC控制器相比,该方法实现了相当的六自由度姿态跟踪精度,同时在各种任务中表现出卓越的鲁棒性和泛化能力,从而能够在真实硬件上进行零样本部署。

🔬 方法详解

问题定义:论文旨在解决过驱动倾转旋翼无人机在复杂环境下的全向敏捷运动控制问题。现有基于模型的控制方法,如NMPC,虽然在理想条件下表现良好,但对建模误差和外部扰动敏感,难以保证鲁棒性和泛化性。因此,需要一种能够适应不确定性并实现稳定控制的方法。

核心思路:论文的核心思路是利用强化学习直接从数据中学习控制策略,从而避免对精确模型的依赖。通过奖励函数的设计,鼓励智能体学习敏捷且鲁棒的运动控制策略。同时,采用域随机化技术,提高策略在真实环境中的泛化能力。

技术框架:该控制框架主要包含以下几个模块:1) 环境建模:构建倾转旋翼无人机的仿真环境,并加入随机扰动模拟真实环境的不确定性。2) 强化学习智能体:采用深度强化学习算法(具体算法未知)训练控制策略,输入为无人机的状态信息,输出为旋翼转速和关节角度控制指令。3) 域随机化模块:通过随机改变仿真环境的参数,如质量、惯量、摩擦系数等,提高策略的鲁棒性。4) 系统辨识模块:利用系统辨识技术,减小仿真环境与真实环境的差异,提高sim-to-real迁移效果。

关键创新:该论文的关键创新在于将强化学习应用于过驱动倾转旋翼无人机的全向运动控制,并结合系统辨识和域随机化技术,实现了较好的sim-to-real迁移效果。与传统的基于模型的控制方法相比,该方法具有更强的鲁棒性和泛化能力。

关键设计:论文中关键的设计包括:1) 奖励函数的设计,需要仔细考虑如何引导智能体学习期望的运动行为,例如,跟踪误差、能量消耗、平滑性等。2) 域随机化参数的选择,需要选择对控制性能影响较大的参数进行随机化,并控制随机化的范围。3) 系统辨识方法的选择,需要选择合适的系统辨识方法来减小仿真环境与真实环境的差异。具体的网络结构、损失函数和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在六自由度姿态跟踪精度上与最先进的NMPC控制器相当,但在鲁棒性和泛化能力上表现更优。该方法能够在各种任务中实现零样本部署,无需在真实环境中进行额外的训练或微调,显著降低了部署成本。

🎯 应用场景

该研究成果可应用于复杂环境下的无人机自主导航、搜索救援、目标跟踪等领域。倾转旋翼无人机具有全向运动能力,使其能够在狭小空间和复杂地形中灵活飞行。通过强化学习训练的控制策略,可以提高无人机在未知环境中的适应性和鲁棒性,实现更安全可靠的飞行。

📄 摘要(原文)

Tilt-rotor aerial robots enable omnidirectional maneuvering through thrust vectoring, but introduce significant control challenges due to the strong coupling between joint and rotor dynamics. While model-based controllers can achieve high motion accuracy under nominal conditions, their robustness and responsiveness often degrade in the presence of disturbances and modeling uncertainties. This work investigates reinforcement learning for omnidirectional aerial motion control on over-actuated tiltable quadrotors that prioritizes robustness and agility. We present a learning-based control framework that enables efficient acquisition of coordinated rotor-joint behaviors for reaching target poses in the $SE(3)$ space. To achieve reliable sim-to-real transfer while preserving motion accuracy, we integrate system identification with minimal and physically consistent domain randomization. Compared with a state-of-the-art NMPC controller, the proposed method achieves comparable six-degree-of-freedom pose tracking accuracy, while demonstrating superior robustness and generalization across diverse tasks, enabling zero-shot deployment on real hardware.