Autonomous Control of a Novel Closed Chain Five Bar Active Suspension via Deep Reinforcement Learning

📄 arXiv: 2406.18899v3 📥 PDF

作者: Nishesh Singh, Sidharth Ramesh, Abhishek Shankar, Jyotishka Duttagupta, Leander Stephen D'Souza, Sanjay Singh

分类: cs.RO, cs.AI

发布日期: 2024-06-27 (更新: 2024-07-04)

备注: 15 pages, 11 figures


💡 一句话要点

提出基于深度强化学习的五杆主动悬架控制方法,用于行星探测车底盘稳定

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 主动悬架 深度强化学习 行星探测车 软演员-评论家算法 机器人控制

📋 核心要点

  1. 行星探测车需要在崎岖地形中行驶,同时保护携带的精密科学仪器免受机械损伤,这是一个挑战。
  2. 论文提出了一种基于深度强化学习的主动悬架控制方法,通过精确控制悬架连杆来实现底盘稳定和高效避障。
  3. 在Gazebo仿真环境中验证了该主动悬架系统的有效性,证明其能够在低速下稳定底盘并克服大型障碍。

📝 摘要(中文)

本文提出了一种用于行星探测车的主动悬架系统,旨在崎岖地形中稳定底盘并高效通过障碍。该系统采用软演员-评论家(SAC)算法与比例积分微分(PID)控制相结合,以低速稳定底盘并克服大型障碍。模型利用探测器与周围障碍物的距离、障碍物高度以及底盘姿态等信息,精确控制悬架的连杆。在Gazebo环境中进行的仿真实验验证了所提出的主动悬架系统的有效性。

🔬 方法详解

问题定义:行星探测车在崎岖地形中行驶时,底盘的稳定性和避障能力至关重要。传统的被动悬架系统难以同时满足稳定性和通过性的需求。主动悬架系统虽然可以改善性能,但其控制策略设计复杂,需要考虑多种因素,例如探测器与障碍物的距离、障碍物高度以及底盘姿态等。

核心思路:论文的核心思路是利用深度强化学习(DRL)来学习主动悬架的控制策略。通过DRL,系统可以自主地从环境中学习最优的控制策略,而无需人工设计复杂的控制规则。具体而言,论文采用软演员-评论家(SAC)算法,这是一种off-policy的DRL算法,具有较好的稳定性和探索能力。

技术框架:该主动悬架系统的整体框架包括以下几个主要模块:1) 环境感知模块:该模块负责获取探测器与周围障碍物的距离、障碍物高度以及底盘姿态等信息。2) 控制器模块:该模块基于SAC算法学习到的策略,输出悬架连杆的控制指令。同时,结合PID控制来进一步稳定底盘。3) 悬架执行模块:该模块根据控制指令,驱动悬架连杆运动,从而调整底盘姿态。4) Gazebo仿真环境:用于训练和验证控制策略。

关键创新:该论文的关键创新在于将深度强化学习应用于五杆主动悬架的控制。与传统的控制方法相比,DRL能够自主地学习复杂的控制策略,无需人工设计,并且能够适应不同的地形和障碍物。此外,结合SAC算法和PID控制,进一步提高了系统的稳定性和鲁棒性。

关键设计:论文中,SAC算法的状态空间包括探测器与周围障碍物的距离、障碍物高度以及底盘姿态等信息。动作空间为悬架连杆的控制指令。奖励函数的设计旨在鼓励系统稳定底盘并克服障碍。具体而言,奖励函数包括底盘姿态的惩罚项、控制指令的惩罚项以及成功克服障碍的奖励项。网络结构采用多层感知机(MLP)。PID控制器的参数需要根据具体的悬架系统进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在Gazebo仿真环境中验证了所提出的主动悬架系统的有效性。实验结果表明,该系统能够在低速下稳定底盘并克服大型障碍。与传统的被动悬架系统相比,该主动悬架系统能够显著提高探测车的行驶稳定性和通过性。具体的性能数据(例如底盘姿态的稳定程度、成功克服障碍的概率等)在论文中进行了详细的分析和展示。

🎯 应用场景

该研究成果可应用于行星探测车、月球车等需要在复杂地形中行驶的机器人。通过主动悬架系统,可以提高机器人的行驶稳定性、通过性和安全性,从而更好地完成探测任务。此外,该方法也可推广到其他需要主动控制的车辆或机器人系统中,例如无人驾驶汽车、农业机器人等。

📄 摘要(原文)

Planetary exploration requires traversal in environments with rugged terrains. In addition, Mars rovers and other planetary exploration robots often carry sensitive scientific experiments and components onboard, which must be protected from mechanical harm. This paper deals with an active suspension system focused on chassis stabilisation and an efficient traversal method while encountering unavoidable obstacles. Soft Actor-Critic (SAC) was applied along with Proportional Integral Derivative (PID) control to stabilise the chassis and traverse large obstacles at low speeds. The model uses the rover's distance from surrounding obstacles, the height of the obstacle, and the chassis' orientation to actuate the control links of the suspension accurately. Simulations carried out in the Gazebo environment are used to validate the proposed active system.