Autonomous Control of Redundant Hydraulic Manipulator Using Reinforcement Learning with Action Feedback

📄 arXiv: 2504.15714v1 📥 PDF

作者: Rohit Dhakate, Christian Brommer, Christoph Böhm, Stephan Weiss, Jan Steinbrener

分类: cs.RO

发布日期: 2025-04-22

备注: 8 pages, 15 figures, Published at International Conference on Intelligent Robots and Systems (IROS - Kyoto, Japan, 2022)


💡 一句话要点

提出一种基于强化学习与动作反馈的液压冗余机械臂自主控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 液压机械臂 强化学习 自主控制 数据驱动 动作反馈

📋 核心要点

  1. 传统液压机械臂控制依赖精确模型,难以应对非线性液压动态和冗余自由度带来的挑战。
  2. 利用数据驱动的执行器网络建模液压动态,结合强化学习自主控制,并引入动作反馈加速学习。
  3. 在缩放液压前移起重机上验证,仿真结果表明该方法可直接部署于真实系统,无需额外调整。

📝 摘要(中文)

本文提出了一种完全数据驱动的方法,用于液压驱动冗余机械臂的自主控制。该方法仅需最少的系统信息,这些信息从仿真模型中继承。利用机械臂手动操作期间收集的数据,使用执行器网络对非线性液压驱动动态进行建模,从而在仿真环境中有效地模拟真实系统。然后,使用带有Ornstein-Uhlenbeck过程噪声(OUNoise)的强化学习(RL)来学习用于自主控制的神经网络控制策略,该策略基于末端执行器(EE)的位置跟踪,以实现高效探索。强化学习智能体还接收基于前向运动学监督学习的反馈,这有助于从探索中选择最合适的动作。控制策略直接提供关节变量作为输出,基于提供的目标末端执行器位置,同时考虑系统动力学。然后,关节变量被映射到液压阀命令,然后将液压阀命令馈送到系统,无需进一步修改。所提出的方法在一个缩放的液压前移起重机上实现,该起重机具有三个旋转关节和一个棱柱关节,以跟踪末端执行器在三维(3D)空间中的期望位置。通过模拟的动态和在仿真中的广泛学习,结果证明了将学习到的控制器直接部署在真实系统上的可行性。

🔬 方法详解

问题定义:论文旨在解决液压冗余机械臂的自主控制问题。传统方法通常依赖于精确的系统模型,但液压系统的非线性特性以及冗余自由度的存在使得模型建立和控制变得复杂。现有方法难以在实际应用中取得良好的控制效果,需要大量的人工调整和参数优化。

核心思路:论文的核心思路是采用数据驱动的方法,通过仿真环境学习控制策略,并直接部署到真实系统。具体而言,利用执行器网络建模液压系统的非线性动态,并使用强化学习算法训练控制策略。为了加速学习过程,引入了基于前向运动学监督学习的动作反馈机制。

技术框架:整体框架包括三个主要模块:1) 液压系统建模:使用执行器网络从手动操作数据中学习液压系统的动态模型,用于仿真环境。2) 强化学习控制:使用强化学习算法训练神经网络控制策略,该策略以目标末端执行器位置为输入,输出关节变量。3) 动作反馈:利用前向运动学监督学习提供动作反馈,帮助强化学习智能体选择更合适的动作。整个流程是在仿真环境中进行训练,然后将训练好的控制器直接部署到真实系统。

关键创新:论文的关键创新在于结合了数据驱动的液压系统建模、强化学习控制和动作反馈机制。与传统方法相比,该方法无需精确的系统模型,能够更好地适应液压系统的非线性特性。动作反馈机制能够加速强化学习的收敛速度,提高控制性能。

关键设计:在液压系统建模方面,使用了执行器网络来学习液压阀的输入输出关系。在强化学习方面,使用了带有 Ornstein-Uhlenbeck 过程噪声 (OUNoise) 的强化学习算法,以实现高效的探索。动作反馈机制通过监督学习前向运动学模型,并利用该模型评估动作的优劣。损失函数的设计目标是最小化末端执行器的位置误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在缩放的液压前移起重机上进行了验证,结果表明,通过在仿真环境中进行训练,可以将学习到的控制器直接部署到真实系统上,无需进行额外的调整。这证明了该方法具有良好的泛化能力和实用价值。虽然论文中没有给出具体的性能数据,但强调了其在真实系统上的可行性。

🎯 应用场景

该研究成果可应用于各种液压驱动的冗余机械臂控制场景,例如建筑机械、农业机械、林业机械和矿业机械等。通过自主控制,可以提高作业效率、降低人工成本,并改善作业安全性。未来,该方法有望推广到其他类型的复杂机器人系统。

📄 摘要(原文)

This article presents an entirely data-driven approach for autonomous control of redundant manipulators with hydraulic actuation. The approach only requires minimal system information, which is inherited from a simulation model. The non-linear hydraulic actuation dynamics are modeled using actuator networks from the data gathered during the manual operation of the manipulator to effectively emulate the real system in a simulation environment. A neural network control policy for autonomous control, based on end-effector (EE) position tracking is then learned using Reinforcement Learning (RL) with Ornstein-Uhlenbeck process noise (OUNoise) for efficient exploration. The RL agent also receives feedback based on supervised learning of the forward kinematics which facilitates selecting the best suitable action from exploration. The control policy directly provides the joint variables as outputs based on provided target EE position while taking into account the system dynamics. The joint variables are then mapped to the hydraulic valve commands, which are then fed to the system without further modifications. The proposed approach is implemented on a scaled hydraulic forwarder crane with three revolute and one prismatic joint to track the desired position of the EE in 3-Dimensional (3D) space. With the emulated dynamics and extensive learning in simulation, the results demonstrate the feasibility of deploying the learned controller directly on the real system.