Autonomous loading of ore piles with Load-Haul-Dump machines using Deep Reinforcement Learning
作者: Rodrigo Salas, Francisco Leiva, Javier Ruiz-del-Solar
分类: cs.RO
发布日期: 2024-09-11
备注: 19 pages, 19 figures
💡 一句话要点
提出基于深度强化学习的LHD铲运机自主装载矿堆方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 LHD铲运机 自主装载 矿堆 机器人控制
📋 核心要点
- 现有LHD铲运机自主装载方法在复杂环境下泛化性差,且依赖精确的环境建模。
- 利用深度强化学习直接从模拟环境中学习装载策略,无需人工设计规则,降低了开发难度。
- 实验表明,该方法在真实环境中表现良好,装载填充率达到71-94%,且车轮打滑现象更少。
📝 摘要(中文)
本文提出了一种基于深度强化学习的方法,用于训练LHD铲运机自主装载矿堆的控制器。这些控制器必须执行完整的装载操作,在避免车轮打滑、倾倒物料或陷入矿堆的情况下,将铲斗装满物料。训练过程完全在模拟环境中进行,该环境利用了土方力学基本方程,从而实现了较低的计算成本。训练了两种不同类型的策略:一种具有混合动作空间,另一种具有连续动作空间。基于强化学习的策略在模拟和真实环境中都进行了评估,使用缩放的LHD和缩放的矿堆,并将其性能与基于启发式的控制器和人工遥控进行了比较。额外的真实环境实验用于评估基于强化学习的策略对矿堆特征测量误差的鲁棒性。总体而言,基于强化学习的控制器在真实环境中表现良好,实现了71-94%的填充率,并且在装载过程中车轮打滑比其他基线更少。
🔬 方法详解
问题定义:现有LHD铲运机自主装载方法通常依赖于人工设计的启发式规则或传统的控制算法,这些方法在面对复杂多变的矿堆环境时,泛化能力较弱。此外,精确的环境建模需要耗费大量时间和资源,且模型误差会直接影响控制效果。因此,需要一种能够自主学习、适应性强的装载控制方法。
核心思路:本文的核心思路是利用深度强化学习(DRL)算法,直接从模拟环境中学习LHD铲运机的装载策略。通过与模拟环境的交互,智能体能够自主探索最优的装载动作序列,从而避免了人工设计规则的复杂性,并提高了对环境变化的适应性。
技术框架:该方法的技术框架主要包括以下几个部分:1) 基于土方力学基本方程构建的低成本模拟环境;2) 深度强化学习算法,用于训练LHD铲运机的装载策略;3) 两种不同类型的策略网络,分别对应混合动作空间和连续动作空间;4) 真实环境实验,用于评估和验证所学策略的性能和鲁棒性。训练好的策略可以直接部署到真实的LHD铲运机上,实现自主装载。
关键创新:该方法最重要的技术创新点在于,将深度强化学习应用于LHD铲运机的自主装载任务,实现了端到端的学习控制。与传统的基于规则或模型的控制方法相比,该方法能够自主学习最优的装载策略,无需人工干预,并具有更强的适应性和鲁棒性。此外,利用土方力学基本方程构建的低成本模拟环境,大大降低了训练成本。
关键设计:在深度强化学习算法的选择上,论文采用了两种不同的动作空间设计:混合动作空间和连续动作空间,并分别训练了对应的策略网络。具体的网络结构和参数设置未知。损失函数的设计目标是最大化装载量,同时最小化车轮打滑和避免碰撞。此外,论文还设计了奖励函数,用于引导智能体学习正确的装载行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于深度强化学习的控制器在真实环境中表现良好,实现了71-94%的填充率。与基于启发式的控制器和人工遥控相比,该方法在装载过程中车轮打滑现象更少,表明其具有更好的稳定性和控制性能。此外,实验还验证了该方法对矿堆特征测量误差的鲁棒性。
🎯 应用场景
该研究成果可应用于矿山、建筑工地等场景,实现LHD铲运机的自动化装载作业,提高生产效率,降低人工成本,并减少安全风险。未来,该技术可进一步推广到其他类型的工程机械,实现更广泛的自动化应用。
📄 摘要(原文)
This work presents a deep reinforcement learning-based approach to train controllers for the autonomous loading of ore piles with a Load-Haul-Dump (LHD) machine. These controllers must perform a complete loading maneuver, filling the LHD's bucket with material while avoiding wheel drift, dumping material, or getting stuck in the pile. The training process is conducted entirely in simulation, using a simple environment that leverages the Fundamental Equation of Earth-Moving Mechanics so as to achieve a low computational cost. Two different types of policies are trained: one with a hybrid action space and another with a continuous action space. The RL-based policies are evaluated both in simulation and in the real world using a scaled LHD and a scaled muck pile, and their performance is compared to that of a heuristics-based controller and human teleoperation. Additional real-world experiments are performed to assess the robustness of the RL-based policies to measurement errors in the characterization of the piles. Overall, the RL-based controllers show good performance in the real world, achieving fill factors between 71-94%, and less wheel drift than the other baselines during the loading maneuvers. A video showing the training environment and the learned behavior in simulation, as well as some of the performed experiments in the real world, can be found in https://youtu.be/jOpA1rkwhDY.