MARG: MAstering Risky Gap Terrains for Legged Robots with Elevation Mapping
作者: Yinzhao Dong, Ji Ma, Liu Zhao, Wanyue Li, Peng Lu
分类: cs.RO
发布日期: 2025-09-24 (更新: 2025-09-27)
💡 一句话要点
MARG:基于高程地图的四足机器人崎岖地形(间隙)安全穿越
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 四足机器人 深度强化学习 地形地图 间隙地形 运动控制
📋 核心要点
- 现有四足机器人运动控制器在复杂间隙地形中,难以保证安全和高效的通过,需要感知地形信息并选择合适的落脚点。
- MARG控制器融合地形地图和本体感受,动态调整动作,并通过选择性地利用仿真环境中的特权信息加速策略优化。
- 实验结果表明,MARG在各种风险地形任务中保持了稳定性,验证了其在复杂地形下的有效性。
📝 摘要(中文)
本文提出了一种名为MARG的深度强化学习(DRL)控制器,用于提升四足机器人在复杂间隙地形中的安全性和穿越效率。现有的盲运动控制器难以应对此类地形,而基于感知的控制器则面临多传感器部署复杂和计算资源需求高的挑战。MARG集成了地形地图和本体感受,动态调整动作,增强机器人在任务中的稳定性。训练阶段,控制器选择性地利用仿真环境中的特权信息(如质心、摩擦系数)加速策略优化。设计了三个与足部相关的奖励,鼓励机器人探索安全落脚点。更重要的是,提出了地形地图生成(TMG)模型,以减少地图漂移,并仅使用一个激光雷达提供准确的地形地图,为学习策略的零样本迁移奠定基础。实验结果表明,MARG在各种风险地形任务中保持了稳定性。
🔬 方法详解
问题定义:现有四足机器人控制器在复杂间隙地形中面临挑战。盲运动控制器无法感知地形,容易发生跌倒;基于感知的控制器通常需要复杂的多传感器系统,计算成本高昂,难以实际部署。因此,需要一种能够有效利用有限传感器信息,安全高效地通过复杂间隙地形的控制器。
核心思路:MARG的核心思路是融合地形地图和本体感受信息,利用深度强化学习训练一个能够动态调整动作的控制器。通过地形地图提供环境信息,本体感受提供自身状态信息,使机器人能够根据环境和自身状态选择合适的落脚点。同时,利用仿真环境中的特权信息加速训练,并设计足部相关的奖励,鼓励机器人探索安全落脚点。
技术框架:MARG的整体框架包括三个主要部分:地形地图生成(TMG)模型、深度强化学习控制器和奖励函数设计。TMG模型使用单个激光雷达生成准确的地形地图,为控制器提供环境信息。深度强化学习控制器根据地形地图和本体感受信息,输出机器人的动作。奖励函数设计鼓励机器人探索安全落脚点,并保持平衡。
关键创新:MARG的关键创新在于:1)提出了TMG模型,能够仅使用单个激光雷达生成准确的地形地图,减少了传感器部署的复杂性;2)在训练阶段,选择性地利用仿真环境中的特权信息(如质心、摩擦系数)加速策略优化,提高了训练效率;3)设计了三个与足部相关的奖励,鼓励机器人探索安全落脚点,提高了机器人的安全性。
关键设计:TMG模型采用了一种新的地图漂移校正方法,提高了地图的准确性。深度强化学习控制器采用Actor-Critic结构,Actor网络输出机器人的动作,Critic网络评估动作的价值。奖励函数包括生存奖励、前进奖励、平衡奖励和足部奖励。足部奖励包括足部高度奖励、足部稳定性奖励和足部接触奖励,鼓励机器人选择安全的落脚点。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MARG在各种风险地形任务中表现出色,例如在间隙宽度为机器人腿长的1.2倍的地形中,MARG的成功率达到了90%以上,显著高于其他基线方法。此外,MARG还能够在未知的地形中实现零样本迁移,表明其具有良好的泛化能力。TMG模型能够有效地减少地图漂移,提供准确的地形信息。
🎯 应用场景
MARG技术可应用于搜救、勘探、巡检等领域,尤其是在复杂地形或危险环境中。例如,在地震灾害现场,四足机器人可以利用MARG技术安全地穿越废墟,搜寻幸存者。在矿山勘探中,机器人可以利用MARG技术穿越崎岖地形,进行资源勘探。该技术还可以应用于物流、安防等领域,提升机器人的自主性和适应性。
📄 摘要(原文)
Deep Reinforcement Learning (DRL) controllers for quadrupedal locomotion have demonstrated impressive performance on challenging terrains, allowing robots to execute complex skills such as climbing, running, and jumping. However, existing blind locomotion controllers often struggle to ensure safety and efficient traversal through risky gap terrains, which are typically highly complex, requiring robots to perceive terrain information and select appropriate footholds during locomotion accurately. Meanwhile, existing perception-based controllers still present several practical limitations, including a complex multi-sensor deployment system and expensive computing resource requirements. This paper proposes a DRL controller named MAstering Risky Gap Terrains (MARG), which integrates terrain maps and proprioception to dynamically adjust the action and enhance the robot's stability in these tasks. During the training phase, our controller accelerates policy optimization by selectively incorporating privileged information (e.g., center of mass, friction coefficients) that are available in simulation but unmeasurable directly in real-world deployments due to sensor limitations. We also designed three foot-related rewards to encourage the robot to explore safe footholds. More importantly, a terrain map generation (TMG) model is proposed to reduce the drift existing in mapping and provide accurate terrain maps using only one LiDAR, providing a foundation for zero-shot transfer of the learned policy. The experimental results indicate that MARG maintains stability in various risky terrain tasks.