Autonomous Wheel Loader Navigation Using Goal-Conditioned Actor-Critic MPC

📄 arXiv: 2409.15717v3 📥 PDF

作者: Aleksi Mäki-Penttilä, Naeim Ebrahimi Toulkani, Reza Ghabcheloo

分类: cs.RO, eess.SY

发布日期: 2024-09-24 (更新: 2025-04-05)

备注: Accepted to International Conference on Robotics and Automation (ICRA) 2025


💡 一句话要点

提出基于目标条件Actor-Critic MPC的自主轮式装载机导航方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主导航 轮式装载机 模型预测控制 强化学习 Actor-Critic 目标条件控制

📋 核心要点

  1. 现有自主轮式装载机导航方法通常依赖高层轨迹规划器与MPC结合,计算复杂度高,实时性难以保证。
  2. 本文提出一种新颖的控制方法,利用强化学习训练的Actor-Critic网络指导MPC,提升规划效率。
  3. 仿真和真实轮式装载机实验表明,该方法能有效导航到目标姿态,并具备良好的时间效率。

📝 摘要(中文)

本文提出了一种用于自主轮式装载机的新型控制方法,能够高效地导航到任意目标姿态。与以往将高层轨迹规划器与模型预测控制(MPC)相结合的工作不同,本文通过结合从Actor-Critic强化学习(RL)中获得的成本函数,直接增强了MPC的规划能力。具体而言,首先训练一个RL智能体来解决模拟环境中的姿态到达任务,然后通过将训练好的神经网络评论家作为阶段成本和终端成本,将学习到的规划知识转移到MPC。通过全面的仿真表明,由此产生的MPC继承了RL智能体的时间效率行为,生成的轨迹与使用轨迹优化找到的轨迹相比具有优势。此外,还在真实的轮式装载机上部署了该方法,并在各种场景中展示了成功的导航。

🔬 方法详解

问题定义:自主轮式装载机的导航任务,即控制轮式装载机从当前位置高效、准确地到达指定的目标姿态。现有方法通常采用分层结构,先通过高层规划器生成全局轨迹,再由MPC进行局部跟踪。这种方法计算量大,难以保证实时性,尤其是在复杂环境中。

核心思路:利用强化学习(RL)学习到的规划知识来指导MPC。具体来说,训练一个Actor-Critic RL智能体来解决姿态到达任务,然后将训练好的Critic网络作为MPC的成本函数。这样,MPC就能继承RL智能体的时间效率行为,从而生成更优的轨迹。

技术框架:整体框架包含两个主要阶段:1) RL训练阶段:在仿真环境中训练一个Actor-Critic RL智能体,使其能够学习到从任意起始姿态到达目标姿态的最优策略。2) MPC控制阶段:将训练好的Critic网络作为MPC的阶段成本和终端成本,用于指导MPC生成控制指令,实现自主导航。MPC接收当前状态和目标状态作为输入,输出控制指令。

关键创新:将强化学习与模型预测控制相结合,利用RL学习到的规划知识来指导MPC,从而提升了MPC的规划能力和时间效率。与传统的基于轨迹优化的MPC方法相比,该方法能够更快地生成高质量的轨迹。

关键设计:Actor-Critic网络的结构未知,但其输出被用作MPC的阶段成本和终端成本。MPC的目标函数包含两部分:一是Critic网络输出的成本,二是控制输入的惩罚项。通过调整控制输入惩罚项的权重,可以平衡轨迹的平滑性和时间效率。具体参数设置未知。

🖼️ 关键图片

fig_0

📊 实验亮点

通过仿真实验表明,该方法生成的轨迹与使用轨迹优化方法找到的轨迹相比具有优势,表明其继承了RL智能体的时间效率行为。在真实的轮式装载机上进行了部署,并在各种场景中展示了成功的导航,验证了该方法在实际应用中的可行性。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于各种自主轮式装载机作业场景,例如建筑工地、矿山、港口等。通过提高轮式装载机的自主导航能力,可以显著提升作业效率、降低人工成本,并改善作业安全性。未来,该方法还可以推广到其他类型的移动机器人,例如无人叉车、无人挖掘机等。

📄 摘要(原文)

This paper proposes a novel control method for an autonomous wheel loader, enabling time-efficient navigation to an arbitrary goal pose. Unlike prior works which combine high-level trajectory planners with Model Predictive Control (MPC), we directly enhance the planning capabilities of MPC by incorporating a cost function derived from Actor-Critic Reinforcement Learning (RL). Specifically, we first train an RL agent to solve the pose reaching task in simulation, then transfer the learned planning knowledge to an MPC by incorporating the trained neural network critic as both the stage and terminal cost. We show through comprehensive simulations that the resulting MPC inherits the time-efficient behavior of the RL agent, generating trajectories that compare favorably against those found using trajectory optimization. We also deploy our method on a real-world wheel loader, where we demonstrate successful navigation in various scenarios.