Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

作者: Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun

分类: cs.RO

发布日期: 2025-12-24

备注: 8 pages, 6 figures

💡 一句话要点

提出基于强化学习的欠驱动空中机械臂全局末端姿态控制方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 空中机械臂 强化学习 欠驱动系统 姿态控制 PPO 非线性控制 机器人控制

📋 核心要点

空中机械臂面临臂重和机械复杂度的严格约束，现有方法难以在轻量化设计的同时保证控制精度和鲁棒性。
本文提出一种基于强化学习的控制策略，通过PPO智能体生成前馈指令，结合传统控制器实现精确的末端姿态控制。
实验结果表明，该方法在外部干扰下能够实现厘米级的定位精度和度级的定向精度，验证了其有效性。

📝 摘要（中文）

本文研究了一种轻量级双自由度（DoF）机械臂，该机械臂通过差动机构安装在四旋翼无人机上，能够实现完整的六自由度末端执行器姿态控制。这种极简设计虽然实现了简单性和有效载荷的降低，但也带来了欠驱动和对外部干扰敏感等挑战，包括重物操作和推力任务。为了解决这些问题，我们采用强化学习，在仿真环境中训练近端策略优化（PPO）智能体，以生成四旋翼加速度和机身角速率的前馈指令，以及关节角度目标。这些指令分别由增量非线性动态逆（INDI）姿态控制器和PID关节控制器跟踪。飞行实验表明，该方法能够实现厘米级的定位精度和度级的定向精度，并在外部力干扰下表现出鲁棒性。结果突出了基于学习的控制策略在利用简单、轻量级平台实现接触式空中操作的潜力。

🔬 方法详解

问题定义：空中机械臂需要在重量和机械复杂度上进行权衡。轻量化的欠驱动设计虽然降低了成本和负载，但也带来了控制上的挑战，例如对外部干扰的敏感性和欠驱动特性导致难以实现精确的末端姿态控制。现有方法难以在保证控制精度的同时，实现轻量化和鲁棒性。

核心思路：本文的核心思路是利用强化学习来学习一个前馈控制器，该控制器能够预测四旋翼无人机和机械臂的控制指令，从而补偿欠驱动特性和外部干扰。通过在仿真环境中训练PPO智能体，学习最优的控制策略，然后将该策略应用于实际飞行。

技术框架：整体框架包括三个主要模块：强化学习训练模块、姿态控制模块和关节控制模块。首先，在仿真环境中训练PPO智能体，使其学习生成四旋翼加速度、机身角速率和关节角度目标。然后，使用增量非线性动态逆（INDI）姿态控制器跟踪四旋翼的加速度和角速率指令，并使用PID控制器跟踪机械臂的关节角度目标。最后，将学习到的控制策略部署到实际的空中机械臂平台上进行测试。

关键创新：最重要的技术创新点在于利用强化学习来解决欠驱动空中机械臂的全局末端姿态控制问题。与传统的控制方法相比，强化学习能够更好地处理非线性动力学和外部干扰，从而实现更精确和鲁棒的控制。此外，该方法采用前馈控制与反馈控制相结合的方式，充分利用了强化学习的预测能力和传统控制器的稳定性。

关键设计：在强化学习训练中，使用了Proximal Policy Optimization (PPO)算法，并仔细设计了奖励函数，以鼓励智能体实现精确的末端姿态控制，同时避免剧烈的运动和碰撞。INDI姿态控制器和PID关节控制器参数经过仔细调整，以确保系统的稳定性和响应速度。仿真环境尽可能地模拟了真实世界的物理特性，包括空气阻力、电机噪声和传感器误差，以提高控制策略的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够实现厘米级的定位精度和度级的定向精度，并在外部力干扰下表现出鲁棒性。具体而言，在受到外部推力干扰的情况下，机械臂仍能保持稳定的姿态，并且能够快速恢复到目标位置。这些结果验证了基于强化学习的控制策略在欠驱动空中机械臂控制中的有效性。

🎯 应用场景

该研究成果可应用于多种场景，例如高空作业、桥梁检测、电力巡检、灾难救援等。通过空中机械臂，可以安全高效地完成人工难以触及的任务，降低人员风险，提高工作效率。未来，该技术有望进一步发展，实现更复杂的操作和更智能的控制，例如自主装配、目标抓取和环境探索。

📄 摘要（原文）

Aerial manipulators, which combine robotic arms with multi-rotor drones, face strict constraints on arm weight and mechanical complexity. In this work, we study a lightweight 2-degree-of-freedom (DoF) arm mounted on a quadrotor via a differential mechanism, capable of full six-DoF end-effector pose control. While the minimal design enables simplicity and reduced payload, it also introduces challenges such as underactuation and sensitivity to external disturbances, including manipulation of heavy loads and pushing tasks. To address these, we employ reinforcement learning, training a Proximal Policy Optimization (PPO) agent in simulation to generate feedforward commands for quadrotor acceleration and body rates, along with joint angle targets. These commands are tracked by an incremental nonlinear dynamic inversion (INDI) attitude controller and a PID joint controller, respectively. Flight experiments demonstrate centimeter-level position accuracy and degree-level orientation precision, with robust performance under external force disturbances. The results highlight the potential of learning-based control strategies for enabling contact-rich aerial manipulation using simple, lightweight platforms.

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理