MOVE: Multi-skill Omnidirectional Legged Locomotion with Limited View in 3D Environments

📄 arXiv: 2412.03353v1 📥 PDF

作者: Songbo Li, Shixin Luo, Jun Wu, Qiuguo Zhu

分类: cs.RO

发布日期: 2024-12-04


💡 一句话要点

MOVE:一种基于有限视野的多技能全向腿式机器人运动框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 四足机器人 全向运动 有限视野 伪孪生网络 对比学习

📋 核心要点

  1. 现有低成本四足机器人受限于狭窄的视觉范围和外部感知噪声,难以实现复杂环境下的全向运动。
  2. MOVE框架通过结合监督学习和对比学习的伪孪生网络,使机器人能够推断视野外的环境信息,实现多技能融合。
  3. 实验结果表明,该方法在模拟和真实环境中均表现出良好的鲁棒性,扩展了机器人应用场景。

📝 摘要(中文)

腿式机器人在复杂三维地形中具有天然优势。然而,先前关于低成本、以自我为中心的视觉四足机器人的研究受到狭窄的前向视野和外部感受噪声的限制,从而限制了在此类环境中的全向移动性。通过分层结构构建体素地图可以改进外部感受处理,但会引入显著的计算开销、噪声和延迟。本文提出MOVE,一个单阶段端到端学习框架,能够在三维环境中实现具有有限视野的多技能全向腿式运动,就像真正的动物一样。当运动与机器人的视线对齐时,外部感受感知增强了运动能力,从而实现极端的攀爬和跳跃。当视觉受阻或运动方向超出机器人的视野时,机器人依靠本体感受来完成诸如爬行和爬楼梯之类的任务。我们通过引入结合监督学习和对比学习的伪孪生网络结构,将所有这些技能集成到一个神经网络中,这有助于机器人推断其视野之外的环境。在模拟和真实场景中的实验证明了我们方法的鲁棒性,从而拓宽了具有以自我为中心视觉的机器人的操作环境。

🔬 方法详解

问题定义:现有低成本四足机器人通常配备前向视觉系统,视野范围有限,难以感知周围环境的全貌。此外,外部感受器容易受到噪声干扰,导致机器人难以在复杂三维环境中进行全向运动,例如攀爬、跳跃和爬楼梯等。

核心思路:MOVE框架的核心在于融合视觉信息和本体感受,并利用伪孪生网络结构学习环境的潜在表示。当视觉信息可用时,机器人利用视觉信息进行精确运动控制;当视觉信息受限时,机器人则依赖本体感受进行运动。通过对比学习,机器人能够推断视野之外的环境信息,从而实现全向运动。

技术框架:MOVE框架采用单阶段端到端学习方式。输入包括机器人的视觉信息(例如RGB图像或深度图)和本体感受信息(例如关节角度、角速度等)。这些信息被输入到一个伪孪生网络中,该网络由两个共享权重的编码器组成。一个编码器处理视觉信息,另一个编码器处理本体感受信息。两个编码器的输出被融合,然后输入到一个策略网络中,该策略网络输出机器人的动作指令。整个框架通过强化学习进行训练。

关键创新:MOVE框架的关键创新在于伪孪生网络结构和对比学习的应用。伪孪生网络能够有效地融合视觉信息和本体感受信息,并学习环境的潜在表示。对比学习则能够帮助机器人推断视野之外的环境信息,从而实现全向运动。此外,该框架采用单阶段端到端学习方式,简化了训练流程,提高了训练效率。

关键设计:伪孪生网络的两个编码器通常采用卷积神经网络或循环神经网络。对比学习的损失函数通常采用InfoNCE损失或Triplet损失。策略网络通常采用多层感知机或循环神经网络。训练过程中,需要仔细调整强化学习的超参数,例如学习率、折扣因子和探索率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MOVE框架在模拟和真实环境中都取得了显著的成果。在模拟环境中,MOVE框架能够成功地控制四足机器人完成各种复杂的运动任务,例如攀爬、跳跃和爬楼梯等。在真实环境中,MOVE框架也表现出良好的鲁棒性,能够在各种复杂地形中进行自主导航和运动。与现有方法相比,MOVE框架能够显著提高四足机器人的全向运动能力和环境适应性。

🎯 应用场景

MOVE框架具有广泛的应用前景,例如搜救、勘探、物流和巡检等。该框架可以应用于各种类型的四足机器人,使其能够在复杂地形和受限空间中进行自主导航和运动。此外,该框架还可以扩展到其他类型的机器人,例如双足机器人和轮式机器人,从而提高其在复杂环境中的适应性和灵活性。

📄 摘要(原文)

Legged robots possess inherent advantages in traversing complex 3D terrains. However, previous work on low-cost quadruped robots with egocentric vision systems has been limited by a narrow front-facing view and exteroceptive noise, restricting omnidirectional mobility in such environments. While building a voxel map through a hierarchical structure can refine exteroception processing, it introduces significant computational overhead, noise, and delays. In this paper, we present MOVE, a one-stage end-to-end learning framework capable of multi-skill omnidirectional legged locomotion with limited view in 3D environments, just like what a real animal can do. When movement aligns with the robot's line of sight, exteroceptive perception enhances locomotion, enabling extreme climbing and leaping. When vision is obstructed or the direction of movement lies outside the robot's field of view, the robot relies on proprioception for tasks like crawling and climbing stairs. We integrate all these skills into a single neural network by introducing a pseudo-siamese network structure combining supervised and contrastive learning which helps the robot infer its surroundings beyond its field of view. Experiments in both simulations and real-world scenarios demonstrate the robustness of our method, broadening the operational environments for robotics with egocentric vision.