Data-driven control of hydraulic impact hammers under strict operational and control constraints

📄 arXiv: 2601.07813v1 📥 PDF

作者: Francisco Leiva, Claudio Canales, Michelle Valenzuela, Javier Ruiz-del-Solar

分类: cs.RO

发布日期: 2026-01-12

备注: 21 pages, 14 figures


💡 一句话要点

提出一种数据驱动方法,用于约束条件下液压冲击锤的精确控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 液压冲击锤 数据驱动控制 强化学习 模型预测控制 系统辨识 自动化 遥操作 Sim2Real

📋 核心要点

  1. 现有液压冲击锤控制面临状态变量难以观测和关节离散控制接口的挑战,限制了其自动化水平。
  2. 该论文提出一种数据驱动的控制方法,通过遥操作数据学习液压臂的动态模型,并利用强化学习或模型预测控制生成控制策略。
  3. 实验结果表明,基于强化学习的策略在真实环境中能够达到较高的控制精度,位置误差小于12cm,俯仰角误差小于0.08rad,且无需Sim2Real调整。

📝 摘要(中文)

本文提出了一种数据驱动的方法,用于控制静态液压冲击锤(也称为破碎锤),该设备广泛应用于采矿业。本文解决的任务是控制破碎锤,使其末端执行器到达任意目标姿态,这是正常操作中将锤放置在需要破碎的岩石顶部所必需的。该方法考虑了多个约束,例如由于有限的传感而导致的未观测到的状态变量,以及在关节级别使用离散控制接口的严格要求。首先,该方法解决了系统辨识问题,以获得液压臂的近似动态模型。这是通过监督学习完成的,仅使用遥操作数据。然后,利用学习到的动态模型来获得能够达到目标末端执行器姿态的控制器。对于策略综合,利用并对比了强化学习(RL)和模型预测控制(MPC)算法。作为一个案例研究,我们考虑了将带有液压冲击锤作为末端执行器的Bobcat E10迷你挖掘机手臂的自动化。使用这台机器,在仿真和真实环境中研究了系统辨识和策略综合阶段。在真实环境中,最佳的基于RL的策略始终如一地达到目标末端执行器姿态,位置误差低于12厘米,俯仰角误差低于0.08弧度。考虑到冲击锤具有4厘米直径的凿子,这种精度足以破碎岩石。值得注意的是,这是通过仅依赖大约68分钟的遥操作数据进行训练和8分钟进行动态模型评估来实现的,并且无需进行任何调整即可成功进行策略Sim2Real迁移。策略在现实世界中执行的演示可以在https://youtu.be/e-7tDhZ4fA找到。

🔬 方法详解

问题定义:论文旨在解决液压冲击锤的精确控制问题,使其末端执行器能够到达任意目标姿态。现有方法通常依赖于精确的系统模型,但在实际应用中,由于传感器限制,难以获得完整的状态信息。此外,液压冲击锤的控制接口通常是离散的,这增加了控制的复杂性。

核心思路:论文的核心思路是利用数据驱动的方法,通过遥操作数据学习液压臂的动态模型,从而避免了对精确系统模型的依赖。然后,利用学习到的动态模型,结合强化学习或模型预测控制,生成能够满足约束条件的控制策略。这种方法能够有效地处理未观测到的状态变量和离散控制接口带来的挑战。

技术框架:整体框架包括两个主要阶段:系统辨识和策略综合。在系统辨识阶段,使用遥操作数据,通过监督学习方法训练一个动态模型,用于近似液压臂的运动学和动力学特性。在策略综合阶段,利用学习到的动态模型,分别使用强化学习(RL)和模型预测控制(MPC)算法生成控制策略。最后,在真实环境中对生成的控制策略进行评估。

关键创新:该论文的关键创新在于提出了一种完全基于数据驱动的液压冲击锤控制方法,无需精确的系统模型。通过遥操作数据学习动态模型,并结合强化学习或模型预测控制生成控制策略,实现了在存在状态观测限制和离散控制接口的情况下,对液压冲击锤的精确控制。此外,该方法具有良好的Sim2Real迁移能力,无需额外的调整。

关键设计:在系统辨识阶段,使用了监督学习方法,具体模型结构未知,但目标是学习一个能够预测液压臂状态转移的动态模型。在策略综合阶段,分别使用了强化学习和模型预测控制算法,具体参数设置未知,但目标是生成能够达到目标姿态并满足约束条件的控制策略。损失函数的设计需要考虑位置误差、角度误差以及控制输入的约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于强化学习的控制策略在真实环境中能够达到较高的控制精度,位置误差小于12厘米,俯仰角误差小于0.08弧度。考虑到冲击锤具有4厘米直径的凿子,这种精度足以破碎岩石。更重要的是,该方法仅使用约68分钟的遥操作数据进行训练,8分钟进行评估,并且无需进行任何Sim2Real调整,即可成功实现策略的迁移。

🎯 应用场景

该研究成果可应用于矿业、建筑业等领域,实现液压冲击锤的自动化控制,提高作业效率和安全性。通过数据驱动的方法,可以降低对专业知识的依赖,简化控制系统的开发和维护。未来,该技术有望推广到其他类型的工程机械,实现更广泛的自动化应用。

📄 摘要(原文)

This paper presents a data-driven methodology for the control of static hydraulic impact hammers, also known as rock breakers, which are commonly used in the mining industry. The task addressed in this work is that of controlling the rock-breaker so its end-effector reaches arbitrary target poses, which is required in normal operation to place the hammer on top of rocks that need to be fractured. The proposed approach considers several constraints, such as unobserved state variables due to limited sensing and the strict requirement of using a discrete control interface at the joint level. First, the proposed methodology addresses the problem of system identification to obtain an approximate dynamic model of the hydraulic arm. This is done via supervised learning, using only teleoperation data. The learned dynamic model is then exploited to obtain a controller capable of reaching target end-effector poses. For policy synthesis, both reinforcement learning (RL) and model predictive control (MPC) algorithms are utilized and contrasted. As a case study, we consider the automation of a Bobcat E10 mini-excavator arm with a hydraulic impact hammer attached as end-effector. Using this machine, both the system identification and policy synthesis stages are studied in simulation and in the real world. The best RL-based policy consistently reaches target end-effector poses with position errors below 12 cm and pitch angle errors below 0.08 rad in the real world. Considering that the impact hammer has a 4 cm diameter chisel, this level of precision is sufficient for breaking rocks. Notably, this is accomplished by relying only on approximately 68 min of teleoperation data to train and 8 min to evaluate the dynamic model, and without performing any adjustments for a successful policy Sim2Real transfer. A demonstration of policy execution in the real world can be found in https://youtu.be/e-7tDhZ4ZgA.