Learning to Capture Rocks using an Excavator: A Reinforcement Learning Approach with Guiding Reward Formulation

📄 arXiv: 2510.04168v2 📥 PDF

作者: Amirmasoud Molaei, Mohammad Heravi, Reza Ghabcheloo

分类: cs.RO, eess.SY

发布日期: 2025-10-05 (更新: 2025-10-17)


💡 一句话要点

提出基于强化学习的挖掘机抓取石块方法,无需显式建模。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 挖掘机 石块抓取 机器人控制 领域随机化

📋 核心要点

  1. 传统挖掘机抓取石块依赖人工经验,难以应对非结构化环境和复杂的接触交互。
  2. 论文提出基于强化学习的控制框架,通过PPO算法学习抓取策略,无需显式建模。
  3. 实验表明,该策略泛化性好,成功率高,验证了学习型挖掘策略的可行性。

📝 摘要(中文)

本文提出了一种完全数据驱动的挖掘机抓取石块控制框架,无需显式建模石块或土壤属性。该方法使用近端策略优化(PPO)算法和引导奖励函数,在AGX Dynamics模拟器中训练一个无模型的强化学习智能体。学习到的策略直接输出关节速度指令,控制CAT365挖掘机的动臂、斗杆和铲斗。通过对石块几何形状、密度、质量以及铲斗、石块和目标位置的初始配置进行广泛的领域随机化,增强了鲁棒性。据我们所知,这是第一个开发和评估基于强化学习的石块抓取控制器的研究。实验结果表明,该策略能够很好地泛化到未见过的石块和不同的土壤条件,实现了与人类参与者相当的高成功率,同时保持了机器的稳定性。这些发现证明了基于学习的挖掘策略在离散物体操作中的可行性,而无需专门的硬件或详细的材料模型。

🔬 方法详解

问题定义:现有自主挖掘方法主要关注连续介质或依赖专用夹具,难以应用于真实建筑工地中抓取不规则石块的任务。传统方法需要对石块和土壤进行精确建模,但在实际应用中,这些参数难以获取且变化剧烈,导致控制效果不佳。因此,需要一种无需显式建模,能够直接从数据中学习控制策略的方法。

核心思路:论文的核心思路是利用强化学习直接从模拟环境中学习挖掘机的控制策略。通过大量的训练,智能体能够学习到如何在不同的石块形状、大小和位置下,有效地控制挖掘机抓取石块。这种方法避免了对石块和土壤进行复杂建模的需求,提高了系统的鲁棒性和泛化能力。

技术框架:整体框架包括一个基于AGX Dynamics的挖掘机模拟环境和一个基于PPO算法的强化学习智能体。模拟环境负责生成训练数据,包括石块的形状、大小、位置以及挖掘机的状态等。强化学习智能体接收环境的状态信息,输出挖掘机的动作指令(关节速度),并根据环境的反馈(奖励)不断优化策略。该框架采用领域随机化技术,增加了训练数据的多样性,提高了策略的泛化能力。

关键创新:最重要的技术创新点在于提出了一种完全数据驱动的石块抓取控制框架,无需显式建模石块或土壤属性。与传统的基于模型的方法相比,该方法更加灵活和鲁棒,能够适应真实世界中复杂和不确定的环境。此外,该研究是首个开发和评估基于强化学习的石块抓取控制器的研究。

关键设计:论文使用PPO算法作为强化学习算法,并设计了一个引导奖励函数,以加速训练过程。奖励函数包括抓取成功奖励、稳定性奖励和时间惩罚等。为了提高策略的泛化能力,论文对石块的几何形状、密度、质量以及铲斗、石块和目标位置的初始配置进行了广泛的领域随机化。网络结构方面,使用了多层感知机(MLP)作为策略网络和价值网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该策略能够很好地泛化到未见过的石块和不同的土壤条件,实现了与人类参与者相当的高成功率,同时保持了机器的稳定性。具体而言,该方法在模拟环境中达到了较高的抓取成功率,并且在不同的石块形状和土壤条件下都表现出良好的鲁棒性。这些结果验证了基于强化学习的挖掘策略在离散物体操作中的可行性。

🎯 应用场景

该研究成果可应用于自动化建筑、采矿和灾害救援等领域。通过自主控制挖掘机抓取石块,可以提高施工效率,降低人工成本,并减少人员在危险环境中的暴露。此外,该方法还可以推广到其他类型的离散物体操作任务,例如垃圾清理和物料搬运等。

📄 摘要(原文)

Rock capturing with standard excavator buckets is a challenging task typically requiring the expertise of skilled operators. Unlike soil digging, it involves manipulating large, irregular rocks in unstructured environments where complex contact interactions with granular material make model-based control impractical. Existing autonomous excavation methods focus mainly on continuous media or rely on specialized grippers, limiting their applicability to real-world construction sites. This paper introduces a fully data-driven control framework for rock capturing that eliminates the need for explicit modeling of rock or soil properties. A model-free reinforcement learning agent is trained in the AGX Dynamics simulator using the Proximal Policy Optimization (PPO) algorithm and a guiding reward formulation. The learned policy outputs joint velocity commands directly to the boom, arm, and bucket of a CAT365 excavator model. Robustness is enhanced through extensive domain randomization of rock geometry, density, and mass, as well as the initial configurations of the bucket, rock, and goal position. To the best of our knowledge, this is the first study to develop and evaluate an RL-based controller for the rock capturing task. Experimental results show that the policy generalizes well to unseen rocks and varying soil conditions, achieving high success rates comparable to those of human participants while maintaining machine stability. These findings demonstrate the feasibility of learning-based excavation strategies for discrete object manipulation without requiring specialized hardware or detailed material models.