Reinforcement Learning Control for Autonomous Hydraulic Material Handling Machines with Underactuated Tools
作者: Filippo A. Spinelli, Pascal Egli, Julian Nubert, Fang Nan, Thilo Bleumer, Patrick Goegler, Stephan Brockes, Ferdinand Hofmann, Marco Hutter
分类: cs.RO, eess.SY
发布日期: 2024-10-07
备注: Presented at IROS 2024, Abu Dhabi, as oral presentation
期刊: 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2024, pp. 12694-12701
DOI: 10.1109/IROS58592.2024.10802199
💡 一句话要点
提出基于强化学习的液压物料搬运机械臂控制方法,解决欠驱动工具的精确控制问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 液压机械臂 自主控制 数据驱动建模 第一性原理建模
📋 核心要点
- 重型液压机械臂控制面临液压关节难建模和末端执行器自由摆动带来的轨迹规划挑战。
- 提出结合数据驱动和第一性原理的混合建模方法,并使用强化学习训练控制器,实现精确控制。
- 实验表明,该控制器比无经验操作员更精确,工具振荡更少,性能可与专业驾驶员媲美。
📝 摘要(中文)
本文提出了一种基于强化学习(RL)的控制器,用于自主液压物料搬运机械的控制,该机械具有欠驱动工具。由于液压驱动关节难以建模,以及带有自由摆动末端执行器工具的无碰撞轨迹规划需求,精确和安全地控制重型物料搬运机械面临诸多挑战。该控制器同时控制驾驶室关节和机械臂,并在结合了数据驱动建模技术和第一性原理建模的仿真环境中进行训练。一方面,我们采用神经网络模型来捕捉上部车厢转动液压马达的高度非线性动力学,并结合显式压力预测以更好地处理延迟。另一方面,我们使用第一性原理将机械臂建模为速度可控,并将自由摆动的末端执行器工具建模为阻尼摆。这种组合模型增强了我们的仿真环境,使得训练的RL控制器可以直接迁移到真实机器上。该控制器旨在达到稳态笛卡尔目标,学习利用液压动力学来提高精度,保持高速度,并最大限度地减少末端执行器工具的振荡。在一种中型原型物料搬运机上进行的测试表明,我们的控制器比没有经验的操作员更准确,并且引起的工具振荡更少。即使与经验丰富的专业驾驶员相比,它也表现出具有竞争力的性能。
🔬 方法详解
问题定义:论文旨在解决液压物料搬运机械臂的精确和安全控制问题,尤其是在存在难以建模的液压驱动关节和自由摆动的末端执行器工具的情况下。现有方法难以准确建模液压系统的非线性特性和延迟,导致控制精度不足,且容易产生工具振荡。
核心思路:论文的核心思路是结合数据驱动建模和第一性原理建模,构建一个更精确的仿真环境,并在此基础上使用强化学习训练控制器。通过数据驱动建模捕捉液压系统的复杂动力学,利用第一性原理简化机械臂和末端执行器的建模,从而提高仿真精度和控制器的泛化能力。
技术框架:整体框架包括以下几个主要模块:1) 数据驱动的液压系统建模:使用神经网络模型预测上部车厢转动液压马达的动力学,并显式预测压力以处理延迟。2) 基于第一性原理的机械臂和末端执行器建模:将机械臂建模为速度可控,末端执行器建模为阻尼摆。3) 强化学习控制器训练:在仿真环境中训练RL控制器,使其能够同时控制驾驶室关节和机械臂,以达到稳态笛卡尔目标。4) 真实机械臂部署:将训练好的RL控制器直接部署到真实机械臂上进行测试。
关键创新:论文的关键创新在于:1) 结合数据驱动和第一性原理的混合建模方法,提高了仿真环境的精度和真实性。2) 使用强化学习训练控制器,使其能够自动学习液压系统的复杂动力学,并优化控制策略。3) 显式压力预测,更好地处理了液压系统的延迟。
关键设计:论文的关键设计包括:1) 神经网络模型的结构和训练方法,用于预测液压马达的动力学。2) 强化学习算法的选择和参数设置,例如奖励函数的设计,用于引导控制器学习期望的控制策略。3) 仿真环境的构建,包括液压系统、机械臂和末端执行器的建模,以及环境的随机化,以提高控制器的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该RL控制器在中型原型物料搬运机上表现出色。与没有经验的操作员相比,控制精度更高,末端执行器工具的振荡更少。即使与经验丰富的专业驾驶员相比,也表现出具有竞争力的性能,在某些指标上甚至优于人类操作员。具体性能数据(例如精度提升百分比、振荡减少量等)未在摘要中明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于各种重型液压机械的自动化控制,例如挖掘机、起重机和装载机等。通过提高控制精度和安全性,可以减少人为操作失误,提高生产效率,并降低操作人员的劳动强度。此外,该方法还可以扩展到其他具有复杂动力学和欠驱动特性的机器人系统。
📄 摘要(原文)
The precise and safe control of heavy material handling machines presents numerous challenges due to the hard-to-model hydraulically actuated joints and the need for collision-free trajectory planning with a free-swinging end-effector tool. In this work, we propose an RL-based controller that commands the cabin joint and the arm simultaneously. It is trained in a simulation combining data-driven modeling techniques with first-principles modeling. On the one hand, we employ a neural network model to capture the highly nonlinear dynamics of the upper carriage turn hydraulic motor, incorporating explicit pressure prediction to handle delays better. On the other hand, we model the arm as velocity-controllable and the free-swinging end-effector tool as a damped pendulum using first principles. This combined model enhances our simulation environment, enabling the training of RL controllers that can be directly transferred to the real machine. Designed to reach steady-state Cartesian targets, the RL controller learns to leverage the hydraulic dynamics to improve accuracy, maintain high speeds, and minimize end-effector tool oscillations. Our controller, tested on a mid-size prototype material handler, is more accurate than an inexperienced operator and causes fewer tool oscillations. It demonstrates competitive performance even compared to an experienced professional driver.