Traversability-Aware Legged Navigation by Learning from Real-World Visual Data
作者: Hongbo Zhang, Zhongyu Li, Xuanqi Zeng, Laura Smith, Kyle Stachowicz, Dhruv Shah, Linzhu Yue, Zhitao Song, Weipeng Xia, Sergey Levine, Koushil Sreenath, Yun-hui Liu
分类: cs.RO
发布日期: 2024-10-14 (更新: 2024-11-12)
💡 一句话要点
提出基于真实视觉数据学习的腿足机器人可通行性感知导航方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 腿足机器人导航 可通行性估计 强化学习 RGBD视觉 真实世界训练
📋 核心要点
- 现有方法依赖人工标注环境特征进行可通行性评估,忽略了机器人自身运动控制能力对地形适应性的影响。
- 论文提出一种以机器人为中心的可通行性估计器,基于运动控制器的值函数,并集成到RGBD导航框架中。
- 通过真实世界实验,验证了该框架在可通行性估计和多模态数据学习方面的优越性,并展示了良好的泛化能力。
📝 摘要(中文)
腿足运动增强了四足机器人在复杂和非结构化环境中导航的能力。然而,在考虑不同地形的能量消耗差异的同时,优化敏捷运动仍然是一个开放的挑战。以往的工作主要集中于基于人工标注的环境特征进行可通行性成本估计的轨迹规划。然而,这种以人为中心的方法是不够的,因为它没有考虑到机器人运动控制器在复杂地形上的不同能力。为了解决这个问题,我们以机器人为中心,基于机器人运动控制器的值函数,开发了一种新的可通行性估计器。该估计器被集成到一个新的基于学习的RGBD导航框架中。该框架采用多个训练阶段来开发一个规划器,引导机器人在避开障碍物和难以通行的地形的同时到达目标。导航规划器的训练直接在现实世界中进行,使用一种样本高效的强化学习方法,该方法同时利用在线数据和离线数据集。通过广泛的基准测试,我们证明了所提出的框架在精确的可通行性成本估计和从多模态数据(包括机器人的彩色和深度视觉,以及本体感觉反馈)中高效学习以进行真实世界训练方面取得了最佳性能。使用所提出的方法,四足机器人学会了在各种具有挑战性地形的真实世界环境中通过反复试验执行可通行性感知导航,这些地形仅使用深度视觉难以分类。此外,机器人展示了将学习到的导航技能推广到未见场景的能力。
🔬 方法详解
问题定义:现有腿足机器人导航方法依赖于人工标注的环境特征来估计地形的可通行性,这种方法忽略了机器人自身运动控制器的能力,导致在复杂地形上的导航性能受限。因此,需要一种能够反映机器人自身运动特性的可通行性评估方法,并将其应用于导航任务中。
核心思路:论文的核心思路是以机器人为中心,利用机器人运动控制器的值函数来估计地形的可通行性。值函数反映了机器人在特定状态下采取最优动作所能获得的累积奖励,因此可以作为衡量地形难易程度的指标。通过学习值函数,机器人可以更好地理解不同地形的运动成本,从而规划出更高效的导航路径。
技术框架:该框架包含以下几个主要模块:1) 基于RGBD数据的环境感知模块;2) 基于运动控制器值函数的可通行性估计模块;3) 基于强化学习的导航规划模块。首先,机器人通过RGBD相机获取环境信息。然后,利用可通行性估计模块计算每个位置的可通行性成本。最后,导航规划模块利用强化学习算法,结合环境信息和可通行性成本,规划出一条从起点到终点的最优路径。整个框架通过多阶段训练,逐步提升导航性能。
关键创新:论文的关键创新在于提出了一种以机器人为中心的可通行性估计方法。与以往基于人工标注的方法不同,该方法直接利用机器人运动控制器的值函数来评估地形的可通行性,从而更好地反映了机器人自身的运动特性。此外,该方法还结合了RGBD数据和强化学习,实现了在真实世界中的端到端训练。
关键设计:在可通行性估计模块中,论文使用深度神经网络来学习运动控制器的值函数。网络的输入包括RGBD图像和机器人的本体感觉信息,输出为每个位置的可通行性成本。在导航规划模块中,论文采用了一种样本高效的强化学习算法,该算法同时利用在线数据和离线数据集进行训练,从而提高了学习效率。此外,论文还设计了一种多阶段训练策略,逐步提升导航性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在可通行性成本估计和多模态数据学习方面取得了最佳性能。与传统的基于人工标注的方法相比,该方法能够更准确地评估地形的可通行性,并能够更好地利用RGBD数据和本体感觉信息。此外,该方法还展示了良好的泛化能力,能够在未见过的环境中进行导航。视频展示了机器人在各种复杂地形上的导航能力。
🎯 应用场景
该研究成果可应用于各种复杂环境下的腿足机器人导航任务,例如灾难救援、野外勘探、物流配送等。通过学习真实环境中的可通行性信息,机器人可以更好地适应复杂地形,提高导航效率和安全性。此外,该方法还可以推广到其他类型的机器人,例如轮式机器人和无人机。
📄 摘要(原文)
The enhanced mobility brought by legged locomotion empowers quadrupedal robots to navigate through complex and unstructured environments. However, optimizing agile locomotion while accounting for the varying energy costs of traversing different terrains remains an open challenge. Most previous work focuses on planning trajectories with traversability cost estimation based on human-labeled environmental features. However, this human-centric approach is insufficient because it does not account for the varying capabilities of the robot locomotion controllers over challenging terrains. To address this, we develop a novel traversability estimator in a robot-centric manner, based on the value function of the robot's locomotion controller. This estimator is integrated into a new learning-based RGBD navigation framework. The framework employs multiple training stages to develop a planner that guides the robot in avoiding obstacles and hard-to-traverse terrains while reaching its goals. The training of the navigation planner is directly performed in the real world using a sample efficient reinforcement learning method that utilizes both online data and offline datasets. Through extensive benchmarking, we demonstrate that the proposed framework achieves the best performance in accurate traversability cost estimation and efficient learning from multi-modal data (including the robot's color and depth vision, as well as proprioceptive feedback) for real-world training. Using the proposed method, a quadrupedal robot learns to perform traversability-aware navigation through trial and error in various real-world environments with challenging terrains that are difficult to classify using depth vision alone. Moreover, the robot demonstrates the ability to generalize the learned navigation skills to unseen scenarios. Video can be found at https://youtu.be/RSqnIWZ1qks.