Learning All-Terrain Locomotion for a Planetary Rover with Actively Articulated Suspension

📄 arXiv: 2606.06790v1 📥 PDF

作者: Arthur Bouton, Tristan D. Hasseler, Michael Paton, Travis Brown, Jacob Levy, William Reid, Joshua Martin, Hari Nayar

分类: cs.RO, cs.LG, eess.SY

发布日期: 2026-06-05

备注: 21 pages, 26 figures


💡 一句话要点

提出ERNEST以解决行星探测车在复杂地形中的自主行驶问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行星探测 自主导航 强化学习 神经网络 主动悬挂 复杂地形 机器人技术

📋 核心要点

  1. 现有行星探测车在复杂地形中自主行驶能力不足,难以有效应对多样化的地形挑战。
  2. 提出了一种基于神经网络的控制器,结合主动悬挂系统,实现对复杂地形的自主导航与障碍物避让。
  3. 实验表明,学习到的控制器在20°沙坡上运输成本降低37%,在湿沙上表现优于被动悬挂系统。

📝 摘要(中文)

本文提出ERNEST,一个四轮行星探测车概念,配备两自由度主动万向悬挂系统,结合偏航和滚转驱动,实现轮子重配置、转向和主动负载重分配。通过训练单一神经网络控制器,使其能够在复杂地形上跟踪期望路径,充分发挥该悬挂系统的能力。采用高保真DARTS仿真引擎开发强化学习框架,结合刚性接触动力学和Bekker-Wong土壤力学,促使适应松土条件的运动策略的出现。通过策略整合策略将地形专用代理的经验合并为一个神经网络,消除了显式地形分类和控制器切换的需求。实验结果表明,该控制器能够自主穿越岩石场、障碍陷阱、轮高台阶、沙丘和沙坡。

🔬 方法详解

问题定义:本文旨在解决行星探测车在复杂地形中自主行驶的挑战,现有方法往往依赖于显式地形分类和控制器切换,导致灵活性不足。

核心思路:通过设计一个单一的神经网络控制器,结合主动万向悬挂系统,能够在多种地形条件下自适应地进行路径跟踪和障碍物避让。

技术框架:整体架构包括高保真DARTS仿真引擎、强化学习框架和策略整合策略,主要模块包括环境模拟、控制器训练和策略合并。

关键创新:最重要的创新在于通过策略整合将多个地形专用代理的经验合并为一个统一的控制器,消除了对地形分类的依赖,提升了系统的灵活性和适应性。

关键设计:控制器使用了自我感知和外部感知反馈,包括稀疏立体视觉生成的地形高度、底盘姿态、关节状态和力-扭矩测量,采用了领域随机化和传感器噪声注入等技术实现零-shot迁移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,学习到的控制器在20°的沙坡上运输成本降低了37%,在湿沙条件下表现优于被动悬挂系统,展示了其在复杂地形中的优越性能和适应能力。

🎯 应用场景

该研究的潜在应用领域包括行星探测、自动驾驶和复杂环境下的机器人导航。通过提升探测车在多样地形中的自主行驶能力,能够更有效地进行科学探索和数据采集,推动未来的太空探索任务。

📄 摘要(原文)

This paper presents ERNEST, a four-wheeled planetary rover concept equipped with a two-degree-of-freedom Active Gimbal Suspension that combines yaw and roll actuation to enable wheel reconfiguration, steering, and active load redistribution. A single neural network controller, trained to track a desired path across challenging terrain, fully unlocks the capabilities of this actuated suspension system for autonomous obstacle negotiation. A reinforcement learning framework is developed using the high-fidelity DARTS simulation engine, which combines rigid-contact dynamics and Bekker-Wong terramechanics, enabling the emergence of locomotion strategies adapted to loose-soil conditions. To obtain a single unified controller across heterogeneous terrains, a policy consolidation strategy merges the experience of terrain-specialized agents into one neural network, eliminating the need for explicit terrain classification and controller switching. The resulting controller operates on a combination of proprioceptive and exteroceptive feedback, including sparse stereo-derived terrain elevation, chassis attitude, joint states, and force-torque measurements. Zero-shot transfer to the physical rover is achieved through domain randomization, sensor noise injection, and model-to-real system identification. Experimental results demonstrate autonomous traversal of rock fields, a bump trap, a wheel-high step, sand ripples, and sandy slopes. On a 20° sandy slope, the learned controller reduces the cost of transport by 37% on dry sand despite the additional actuation, and achieves superior performance on wet sand where the passive suspension becomes completely immobilized.